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方法 主 








是 一 
特别 强调 发 现 隐藏 在 大 型 数据 集 
要 面向 可 规模 化 的 、 有 效 旧 
术 自 然 进化 的 一 部 分 ， 为 什么 数据 控 
的 一 般 结 构 ， 并 考察 挖掘 的 数据 种 类 


一 章 引言 


个 导论 ， 





介绍 什么 是 数据 挖掘 ， 什 么 是 数据 库 中 知识 发 现 。 书 中 的 材料 从 数据 库 角 度 
PP 有趣 数据 模式 的 数据 挖掘 基 本 概念 和 技术 。 所 讨论 的 实现 
的 数据 挖掘 工具 开发 。 本 章 ， 你 将 学 习 数 据 挖掘 如 何 成 为 数据 库 技 

旭 是 重要 的 ， 以 及 如 何 定义 数据 挖掘。 你 将 学 习 数 据 挖 掘 系 统 
， 可 以 发 现 的 数据 类 型 ， 以 及 什么 样 的 模式 提供 有 用 的 知识 。 































































































除 学 习 数 据 挖 气 系 统 的 分 类 之 外 ， 你 将 看 到 建立 未 来 的 数据 控 } 


1.1 什么 


提 
需要 是 


近年 来 ,数据 挖 据 引起 了 信息 产业 界 的 极 大 关注 ， 其 主要 原 攻 
末 且 迫切 需要 将 这 些 数 据 转换 成 有 
小 
县 技术 自然 进化 的 结果 。 进 化 过 程 
数据 收集 和 数据 库 创 建 ， 数 据 管理 〈 包 括 数据 存 
解 〈 涉 及 数据 仓库 和 数据 控 




















括 商务 管理 、 
数据 挖 


储 和 提取 、 





三 泛 付 诸 实 践 ， 数 据 分 析 和 
年 代 以 来 ,数据库 和 











60 多 
据 库 系 统 。 




















激发 数据 挖掘 ? 为 什么 


发 明之 母 。 


生产 挖 天 











昌 工 具 所 面临 的 挑战 性 问题 。 


是 重要 的 ? 























是 存在 
息 和 知 请 


大 量 数据 
只 可 以 广泛 


以 广泛 使 用 ， 
于 各 种 应 用 ， 包 
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] 的 信息 和 知识 。 
市 场 分 析 、 工 程 设 计 和 科学 探索 





























获取 的 信 


和 
于 o 




















掘 是 信 








查询 和 事务 





自 70 年 代 


据 库 系统 〈 数 据 存 放 在 关系 表 结 构 ， 





[业界 开发 以 下 功能 (图 1.1): 

有 务 处 理 )， 以 及 数据 分 析 与 理 
I 数据库 创建 机 制 的 早期 开发 已 成 为 稍 后 数据 存 
查询 和 事务 处 理 的 大 量 数据 库 系统 





的 见证 
储 和 提取 ， 
时)。 例 如 ， 数 据 收集 逢 
有 效 机 制 开发 的 必 备 基础 。 随 着 提供 
理解 自然 成 为 下 一 个 目标 。 

信息 技术 已 经 系统 地 从 原始 的 文 











是 数据 库 了 
数据 库 事 
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证 


息 牛 处 理 进化 到 复杂 的 、 功 能 强大 的 数 
以 来 ， 数 据 库 系 统 的 研究 和 开发 已 经 从 层次 和 网 状 数据 库 发 展 到 开发 关系 数 
; 见 1.3.1 小 节 )、 数 据 建 模 工具 、 索 引 和 数据 组 织 技 术 。 此 外 ， 

























































































用 户 通 过 查 


询 语言 、 月 





上 


务 处 理 (OLTP) 将 查询 看 作 只 读 司 











存储 、 提 取 








据 库 系统 。 
的 、 

















信息 系统 ， 


在 过 去 


自 80 年 代 中 


时 间 的 、 
统 百花 齐 放 。 涉 及 分 布 性 、 
也 已 H 








和 管理 的 主要 


这 些 使 月 








多 媒体 上 


如 WWW 























里 和 事务 管理 ， 可 以 方便 、 灵 活 地 访问 数据 。 联 机 事 
关系 技术 的 发 展 和 广泛 地 将 关系 技术 作为 大 量 数据 的 有 效 


户 界 面 、 优 化 的 查询 处 
事务 , 对 于 





























期 以 来 数据库 技术 的 特点 是 广泛 接受 关系 技术 ,而 
昌 了 先进 的 数据 模型 ， 如 扩充 关系 、 
的 、 




















要 工具 作出 了 重要 贡献 。 


























究 和 开发 新 的 、 功 能 强大 的 数 
用 向 对 象 、 对 象 -关系 和 演绎 模型 。 包 括 空 间 
过、 办 公信 息 库 在 内 的 面向 应 用 的 数据 库 系 
多 样 性 和 数据 共享 问题 被 广泛 研究 。 异 种 数据 库 和 基于 Internet 的 全 球 
8 现 ， 并 成 为 信息 工业 的 生力军 。 






































主动 的 和 科学 的 数据 库 、 知 识 






























































的 三 十 年 ! 


计算 机 硬件 稳定 的 、 令 人 吃惊 的 进步 














导致 了 功能 强大 的 计算 机 、 数 据 收集 

















设备 和 存储 介 





质 的 大 量 


忆 











息 存 储 用 于 








事务 管理 、 

















上 共 应 。 这 些 技术 大 大 推动 了 数据 库 和 信 


息 提 取 和 数据 分 析 。 


县 产业 的 发 展 ， 使 得 大 量 数据 库 和 信 


号 

















了 











现在 ， 数 据 可 以 存放 在 不 同类 


节 )。 这 是 
技术 包括 数 





次 的 分 析 ， 


一 种 多 个 异 
据 清 
































如 数据 分 类 、 


、 数 ] 
和 聚 集 功 能 ， 以 及 从 不 同 的 角度 观察 信息 








型 的 数据 库 中 。 最 近 出 现 的 一 种 数据 库 结 构 是 数据 仓库 (1.3.2 小 
个 站 点 以 统一 的 模式 组 织 的 存储 ， 以 支持 管理 决策 。 数 据 仓 库 
据 集 成 和 联机 分 析 处 理 ‘OLAP)。OLAP 是 一 种 分 析 技术 ， 具 有 汇总 、 合 并 

的 能 力 。 尽管 OLAP 工具 支持 多 维 分 析 和 决策 ， 对 于 深层 
据 随 时 间 变 化 的 特征 ， 仍 然 需要 其 它 分 析 工 具 。 














种 数据 源 在 9 





























PZ 


























聚 ; 
民 估 


和 数 





数据 收集 和 数据 库 创 建 
(六 十 年 代 和 早期 ) 
-原始 文件 处 理 






数据 库 管 理 系 统 

(七 十 年 代 ) 

- 层次 和 网 状 数 据 库 条 统 

- 关系 数据 库 系 统 

- 数据 建 模 工具 : 实体 -联系 模型 等 

- 索引 | 和 数据 组 织 技术 : ”B+ 树 ， 散 列 等 
查询 语言 ， SQL 等 
用 户 界面 ， 表 单 、 报 告 等 
查询 处 理 和 查询 优化 

- 事务 管理 ,恢复 和 并 上 发 控制 等 

- 联机 事务 处 理 (OLTP) 


基于 Web 的 数据 库 系统 


《从 十 年 代 中 期 -现在 ) ( 九 十 年 代 - 现在 ) 


- 高 级 数据 模型 ， - 基于 XIL 的 数据 库 系统 


扩充 关系 、 和 面向 对 象 、 - Web 挖掘 
关系 -对 象 


=- 面 和 应 用 : 


数据 丰富 


增长 的 海量 





人 的 能 力 ( 


档案 。 这 样 





空间 的 、 时 间 的 、 多 媒体 的 、 
主动 的 、 科 学 的 、 知 识 库 


数据 仓库 和 数据 控 据 

【从 十 年 代 后 期 -现在 ) 
-数据 仓库 和 OLAP 技术 
-数据 挖掘 和 知识 发 现 


新 一 代 信 息 系统 
【2000-.…》 


图 1.1: 数据 库 技 术 的 进化 














富 ， 伴 随 着 对 强 有 力 的 数据 分 析 工 具 的 需求 ， 被 描述 为 “数据 丰富 ， 但 信息 贫乏 ”。 人 快速 
数据 收集 、 存 放 在 大 型 和 大 量 数据 库 中 ， 没 有 强 有 力 的 工具 ， 到 
图 1.2)。 结 果 ， 收 集 在 大 型 数据 库 中 的 数据 变 成 了 “数据 坟墓 ” 

































































里 解 它们 已 经 远 远 超 出 了 








难得 再 访问 的 数据 














， 重要 的 决定 常常 不 是 基于 数据 库 中 信息 丰富 的 数据 ， 而 是 基于 决策 者 的 直观 ， 因 为 决 

















策 者 缺乏 从 海量 数据 中 提取 有 价值 知识 的 工具 。 此 外 ， 考 虑 当前 的 专家 系统 技术 。 
依赖 用 户 或 领域 专家 人 工地 将 知识 输入 知识 库 。 不 幸 的 是 ， 这 一 过 程 常常 有 偏差 和 错误 ， 并 且 耗 时 、 





学 研究 作出 





费用 高 。 数 据 挖 据 工 















































知识 “ 金 块 ”。 


























通常 ， 这 种 系统 


有 具 进行 数据 分 析 ， 可 以 发 现 重 要 的 数据 模式 ， 对 商务 决策 、 知 识 库 、 科 学 和 医 
了 巨大 贡献 。 数 据 和 信息 之 间 的 鸿沟 要 求 系统 地 开发 数据 挖掘 工具 ， 将 数据 坟 莫 转换 成 





1.2 什么 是 数据 挖掘 ? 


简单 地 说 ， 数 据 挖掘 是 从 大 量 数据 中 提 
从 矿石 或 砂子 挖掘 黄金 称 作 黄金 挖掘 ， 而 不 是 砂 石 控 据 。 这 样 ， 数 据 控 
数据 中 挖掘 知识 ”， 不 幸 的 是 它 有 点 长 。 








图 1.2 ”我们 数据 丰富 ， 知 识 贫乏 
































挖掘 。 毕 竞 ， 控 掘 是 














个 很 4 























析 、 数 据 考古 和 数据 捕捞 。 





























DC 
堆积 如 山 的 数据 
图 1.3 数据 挖 据 ， 在 你 的 数据 中 搜索 知识 (有 趣 的 模式 ) 














许多 人 把 数据 挖 气 视 为 男 一 个 常用 的 术语 “数据 库 中 知识 发 现 ” 或 KDD 的 






































人 只 是 把 数据 挖 气 视 为 数据 库 中 知识 发 现 过 程 的 一 个 基本 步 召 。 知 识 发 现 过 程 如 图 1.4 所 示 ， 





下 步骤 组 成 : 


1， 数 据 清理 〈 消 除 噪音 或 不 一 致 数据 ) 
2.， 数据 集成 〈 多 种 数据 源 可 以 组 合 在 一 起 ) ， 
3. 数据 选择 (从 数据 库 中 提取 与 分 析 任 务 相关 的 数据 ) 








4. 数据 变换 (数据 变换 或 统一 成 适合 挖 据 的 形式 ， 如 ， 通 过 
































”信息 产业 界 的 一 个 流行 趋势 是 将 数据 清理 和 数据 集成 作为 预 处 理 步骤 执行 ， 结 








”有 时， 数据 变换 和 数据 统一 在 数据 选择 过 程 之 前 进行 ， 特 别 是 在 数据 仓库 情况 1 









































[总 或 聚集 操作 )“ 











采 数据 存放 在 数据 仓库 中 。 

















了 或 “挖掘 ” 知 识 。 该 术语 实际 上 有 点 用 词 不 当 。 注 意 ， 
时 应 当 更 正确 地 命名 为 “从 
“知识 挖 据 ” 是 一 个 短 术语 ， 可 能 不 能 强调 从 大 量 数 据 中 
FE 动 的 术语 ， 它 抓 住 了 从 大 量 的 、 未 加 工 的 材料 中 
程 的 特点 (图 1.3) 。 这 样 ， 这 种 用 词 不 当 携带 了 “数据 ”和 “ 挖 据 ”， 成 了 流行 的 选择 。 还 有 一 
些 术 语 ， 具 有 和 数据 挖掘 类 似 ， 但 稍 有 不 同 的 含义 ， 如 数据 库 中 知识 挖掘 、 知 识 提 取 、 数 据 /模式 分 


发 现 少量 金 块 这 一 过 


同义词 。 而 另 一 些 
| 以 


5 0 又， 使 用 知 


7.， 知识 表示 使 用 可 视 化 和 知识 表示 技术 ， 向 用 户 提供 





9 能 方法 提取 数据 模式 ) 
识别 提供 知识 的 真正 有 趣 的 模式 ; 


























挖掘 的 知识 ) 。 


1.5 节 ) 


| 
| | 
| 
| 
| 1 于 
! 评估 与 表示 
1 I 
| 1 
I | 数据 挖掘 中 | + 
1 1 1 
+ 2 | 
' 选择 与 转换 | 
! 1 1 
+ A I 
清理 与 集成 ”| 数据 仓库 ' I 1 
> ' ' ' 
| 1 | 
EE i | | 
ET | I | 
数据 库 1 一 般 文 件 
EL ER Nm , 可 
图 1.4: 数据 挖掘 视 为 知识 发 现 过 程 的 一 个 步骤 

















we 有 
， 根 据 这 种 观点 ， 数 据 挖 掘 只 





库 中 o 注意 
隐藏 的 模式 ， 





我 们 同意 数据 挖掘 是 知识 发 现 过 程 的 
据 挖 据 ” 比 较 长 的 术语 “数据 库 中 知识 发 现 ” 更 流行 。 医 
数据 挖掘 的 广义 观点 : 数据 挖掘 是 从 存放 在 数据 库 、 数 据 仓库 或 其 它 信 














我 们 采 
挖 气 有 趣 知识 的 过 程 。 
基于 这 种 观点 ， 


























二 














型 的 信息 库 。 


昌 数据 库 或 数据 仓库 服务 器 : 
数据 。 








型 的 数据 挖掘 系统 
昌 。 数据库、 数据 仓库 、 或 其 它 信息 库 : 这 是 一 个 或 一 




















起 的 民 式 提供 给 用 
整个 过 程 中 的 一 


一 个 步骤 。 然 而 ， 在 工业 界 、 





步 ， 尽 




































































可 以 在 数据 上 进行 数据 清理 和 集成 。 
































民 据 


户 的 数据 挖掘 请 






































国 知识 库 : 这 是 领 页 域 知识 人 ， 























层 ， 用 于 将 属性 或 属性 值 组 

















昌 织 成 不 同 的 抽象 层 。 用 户 确 












































组 数据 库 、 








有 以 下 主要 成 分 (图 1.5) : 


媒体 和 数据 库 研究 界 ， 
此 ， 在 本 书 中 ， 我 们 选 





上 户 ， 或 作为 新 的 知识 存放 在 知识 
管 是 最 重要 的 一 


步 ， 





因为 它 发 现 


6 数 
术语 数据 挖掘。 
息 库 中 的 大 量 数 据 





























数据 仓库 、 





求 ， 数 据 库 或 数据 仓库 服务 器 负责 

















展开 也 


提取 相关 


j 于 指导 搜索 ， 或 评估 结果 模式 的 兴趣 度 。 这 种 知识 可 能 包括 概念 分 
信 方 面 的 知识 也 可 以 包含 在 内 。 可 以 使 




















尺度 限制 或 六 值 和 元 





用 这 种 知识 ， 根 据 非 期 望 性 评估 模式 的 兴趣 度 。 领 域 知识 的 其 它 例子 有 闪 
数据 例如 ， 描 述 来 自 多 个 异种 数据 源 的 数据 〉。 

@ 数据 挖掘 引擎 : 这 是 数据 挖掘 系统 基本 的 部 分 ， 由 一 组 功能 模块 组 成 ， 用 于 特征 、 关 联 、 分 类 
聚 类 分 析 、 演 变 和 偏差 分 析 。 

昌 ”模式 评估 模块 : 通常 ， 该 部 分 使 用 兴趣 度 度 量 〈1.5 节 ) ， 并 与 挖掘 模块 交互 ， 以 便 将 搜索 聚 














焦 在 有 趣 的 模式 上 。 它 可 能 使 用 兴 
集成 在 一 起 ， 这 依赖 于 所 用 的 数据 挖掘 方法 的 实现 。 










































































进 到 挖掘 过 程 之 ， 





式 订 佑 

















到 度 闵 值 过 小 发 现 的 模式 。 模 式 记 


对 于 有 效 的 数据 挖 
， 以 便 将 搜索 限制 在 有 兴趣 的 模式 上 。 


F 估 模块 也 可 以 与 挖掘 模块 








轩 ， 建 议 尽 可 能 地 将 模 

















田 图形 用 户 界面 : 该 模块 在 用 户 和 挖掘 系统 之 间 通 讯 ， 允 许 用 户 与 系统 交互 ， 指 定数 据 挖掘 查询 


或 任务 ， 提 供 信 息 、 帮 助 搜索 聚焦 ， 根 据 数据 挖掘 的 中 间 结 果 进 行 探索 式 数据 控 # 
成 分 还 允许 用 户 浏览 数据 库 和 数据 仓库 模式 或 数据 结构 ， 评 估 挖 





























轩 。 此 外 ， 该 
加 的 模式 ， 以 不 同 的 形式 对 模 





式 可 视 化 。 
引擎 
Ws 
数据 库 或 
数据 仓库 服务 器 
数据 清理 数据 集成 过 小 
a 
数据 仓库 
图 1.5， 典型 的 数据 挖 抓 系统 结构 
从 数据 仓库 观点 ， 数 据 挖 掘 可 以 看 作 联机 分 析 处 理 〈OLAP) 的 高 级 阶段 。 然 而 ， 通 过 结合 























高 级 的 数据 理解 技术 ， 数 据 挖掘 比 数据 仓库 的 汇总 型 分 析 处 理 走 得 更 远 。 
尽管 市 场 上 已 有 许多 “数据 挖掘 系统 ”， 但 是 并 非 所 有 的 都 能 进行 真正 的 数据 挖 据 。 不 
大 量 数据 的 数据 分 析 系统 ， 最 多 称 作 机 器 学 习 系统 、 统 计数 据 分 析 工 具 或 实验 系统 原型 。 一 个 系统 























只 能 够 进行 数据 或 信息 提取 ， 包 括 在 大 型 数据 库 找 出 聚 旨 






















































































统 ， 或 信息 提取 系统 ， 或 演绎 数据 库 系 统 。 











神经 网 络 、 数 据 可 视 化 、 信 息 提 


























久 、 图 象 与 信号 处 理 和 空间 数据 分 析 。 在 本 书 讨论 数据 挖掘 




















们 采用 数据 库 观 点 。 即 ， 着 重 强调 大 型 数据 库 中 有 效 的 和 可 规模 化 的 数据 挖掘 技术 。 一 个 算 





























能 处 理 





直 或 回答 演绎 查询 ， 应 当归 类 为 数据 库 系 


数据 挖掘 涉及 多 学 科技 术 的 集成 ， 包 括 数据 库 技 术 、 统 计 、 机 器 学 习 、 高 性 能 计算 、 模 式 识 别 、 


时 ， 我 


法 是 可 





规模 化 的 , 如 果 给 定 内 存 和 磁盘 空间 等 可 利用 的 系统 资源 ,其 运行 时 间 应 当 随 数据 库 大 小 线性 增加 。 
通过 数据 挖掘 ， 可 以 从 数据 库 提 取 有 趣 的 知识 、 规 律 、 或 高 层 信 息 ， 并 可 以 从 不 同 角度 观察 或 浏览 。 








发 现 的 知识 可 以 用 于 决策 、 过 程控 制 、 信 息 管 理 、 查 询 处 理 、 等 等 。 因 此 ， 数 据 挖掘 被 信息 




































































认为 是 数据 库 系统 最 重要 的 前 沿 之 一 ， 是 信息 产业 最 有 前 途 的 交叉 学 科 。 














1.3 数据 挖掘 一 一 在 何 种 数据 上 进行 ? 














本 六， 我 们 考察 可 以 进行 挖 扩 





储 上 进行 。 这 包括 关系 数据 库 、 数 据 仓库 、 事 务 数据 库 、 先 5 
先进 的 数据 库 系统 包括 面向 对 象 和 对 象 -关系 数据 库 ; 面向 特殊 应 用 的 数据 库 ， 如 空间 数据 库 、 时 间 
序列 数据 库 、 文 本 数据 库 和 多 媒体 数据 库 。 挖 掘 的 挑战 和 技术 可 能 因 存 储 系 统 而 异 。 


























加 的 各 种 数据 存储 。 原 则 上 讲 ， 数 据 挖掘 可 以 在 任何 类 型 的 

































































尽管 本 书 假定 读者 具有 信息 系统 的 基本 知识 ， 我 们 还 是 对 以 上 提 到 的 主要 数据 存储 系统 





介绍 。 本 节 ， 我 们 还 介绍 编造 的 AllElectronics 商店 ， 它 在 本 书 各 处 用 来 解释 概念 。 


产业 界 


信息 存 


进 的 数据 库 系统 、 展 平 的 文件 和 WWW 





做 简要 


1.3.1 关系 数据 库 


数据 库 系统 ， 也 称 数 据 库 管 理 系统 DBMS) ， 
和 存 取 数据 的 软 们 











管 理 





























组 属 
的 


性 值 














考虑 


例 1.1 


段 在 图 
关系 








关系 数据 库 是 表 的 集合 
并 通常 存放 大 量 
描述 。 





语义 数 





F 面 的 例子 。 

















customer | 





customer 





F 程 序 组 成 。 软 件 程序 涉及 如 下 机 制 : 
享 或 分 布 的 数据 访问 ， 面 对 系统 次 痪 或 未 授权 的 访问 ， 确 

















一 组 内 部 相关 的 数据 ， 


























元 组 (记录 或 行 )。 





据 模型 


一 组 属性 ， 
年 收入 、 信 誉 信息 、 分 类 等 。 


， 每 个 表 都 赋 
关系 中 的 每 人 
， 如 实体 -联系 (ER ) 数据 模 
联系 进行 建 模 。 通 常 为 关系 数据 库 构 造 ER 模型 。 





巴 

















称 作 数据 库 ， 和 一 组 


数据 库 结构 定义 ， 数 据 存储 ， 并 行 、 共 


保 数据 的 一 致 性 和 安全 性 。 











个 唯一 的 名 字 























区 人 


























cast_ID 


name 


address 


age | income 


credit_info 








Cl 





Smith,Sandy 





4563 E.Hastings,Burnaby, 
BC,VSA 4S9, Canada 





21 | $27000 








1 








items 


每 个 表 包 含 一 组 属性 〈 列 或 字段 ) ， 
个 被 唯一 关键 字 标 识 的 对 象 ， 
型 ， 将 数据 库 作为 一 





并 被 一 


组 实体 和 它们 之 间 





AllElectronics 公司 由 下 列 关系 表 描 述 : customer, item, employee 和 branch。 这 些 表 的 片 
1.6 中 给 出 。 


包括 顾客 的 唯一 标识 号 (cust_1ID)， 顾客 的 姓名 、 地 址 、 年 龄 、 曲 





13 
18 





item_ID 


name 


high_res TV 
mutidisc 
CDplay 





brand 


Toshiba 
Sanyo 








category 


high resolution 
mutidisc 


type 


TV 
CD player 








price 


$988.00 
$369.00 





place | 


Japan 
Japan 


made | supplier 


Niko X 
Music 
Front 








cost 


$600.00 
$120.00 








employee 





empl_ID 


name 


category 


group 


salary 


commission 





E35 





Jones,Jane 








home entertainment 





manager 


$18,000 








2% 








branch 





branch 


ID 


name 


8 


ddress 





Bl 








City Square 





369 Cambie St.,Vancouver,BC V5L 3A2,Canada 








urchases 





trans_ID 


cast_ID 


empl_ID 


date 


time 


method_paid 


amount 





T100 








Cl 





ES5 





09/21/98 


15:45 





Visa 





$1357.00 











items_sold 





trans_ID 


item_ID 


qty 





T100 
T100 








13 
18 











works_at 


empl_ID | brabch_ID 








ES5 Bl 














图 1.6: AllElectronics 关系 数据 库 的 关系 片段 
国 ”类 似 地 ， 关 系 employee, branch 和 item 的 每 一 个 都 包含 一 组 属性 ， 描 述 它们 的 性 质 。 


和 ” 表 也 用 于 表示 多 个 关系 表 之 间 的 联系 。 对 于 我 们 的 例子 ， 包 括 pwrcpase〈 顾 客 购买 商品 ， 创 建 
一 个 由 雇员 处 理 的 销售 事务 ) 和 work_at (雇员 在 的 一 个 分 店 工 作 〉 。 口 


关系 数据 可 以 通过 数据 库 查 询 访问 。 数 据 库 查 询 使 用 如 SQL 这 样 的 关系 查询 语言 ,或 借助 于 图 
形 用 户 界面 书写 。 在 后 者 ， 用 户 可 以 使 用 菜单 指定 包含 在 查询 中 的 属性 和 属性 上 的 限制 。 一 个 给 定 
的 查询 被 转换 成 一 系列 关系 操作 ， 如 连接 、 选 择 和 投影 ， 并 被 优化 ， 以 便 有 效 地 处 理 。 查 询 可 以 提 
取 数 据 的 一 个 指定 的 子 集 。 假 定 你 的 工作 是 分 析 AllElectronics 的 数据 。 通 过 使 用 关系 查询 ， 你 可 以 
提 这 样 的 问题 : “ 显 式 一 个 上 个 季度 销售 的 商品 的 列表 ”。 关 系 查 询 语 言 也 可 以 包含 聚集 函数 ， 如 
sum, avg 〈 平 均 ) ,count max (最 大 ) 和 min〈 最 小 ) 。 这 些 使 得 你 可 以 问 “ 给 我 显 式 上 个 月 的 总 销 
售 ， 按 分 店 分 组 ”, 或 “多 少 销售 事务 出 现在 12 月 份 ? ”, 或 “ 哪 一 位 销售 人 员 的 销售 额 最 高 ? ”。 

当 数 据 挖掘 用 于 关系 数据 库 时 ， 你 可 以 进一步 搜索 趋势 或 数据 模式 。 例 如 ， 数 据 挖 据 系 统 可 以 
分 析 顾 客 数据 ， 根 据 顾客 的 收入 、 年 龄 和 以 前 的 信誉 信息 预测 新 顾客 的 信誉 风险 。 数 据 挖 气 系 统 也 
可 以 检测 偏差 ， 如 ， 与 以 前 的 年 份 相 比 ， 哪 种 商品 的 销售 出 人 预料 。 这 种 偏差 可 以 进一步 考察 〈 例 
如 ， 包 装 是 否 有 变化 ， 或 价格 是 否 大 幅度 提高 ? ) 。 

关系 数据 库 是 数据 挖掘 的 最 流行 的 、 最 丰富 的 数据 源 ， 因 此 它 是 我 们 数据 挖掘 研究 的 主要 数据 
形式 。 












































































































































































































































































































































1.3.2 数据 仓库 








假定 AllElectronics 是 一 个 成 功 的 跨国 公司 ， 分 部 遍及 世界 。 每 个 分 部 有 自己 的 一 组 数据 库 。 
AllElectronics 的 总 裁 要 你 提供 公司 第 三 季度 每 种 商品 、 每 个 分 部 的 销售 分 析 。 这 是 一 个 困难 的 任务 ， 
特别 是 当 相 关 数 据 散布 在 多 个 数据 库 ， 物 理 地 存放 在 许多 站 点 时 。 
如 果 AllElectronics 有 一 个 数据 仓库 ， 该 任务 将 是 容易 的 。 数 据 仓 库 是 一 个 从 多 个 数据 源 收 集 的 
信息 存储 ， 存 放 在 一 个 一 致 的 模式 下 ， 并 通常 驻 留 在 单个 站 点 。 数 据 仓库 通过 数据 清理 、 数 据 变换 、 
数据 集成 、 数 据 装 入 和 定期 数据 刷新 构造 。 该 过 程 在 第 2、3 章 详 细 研 究 。 图 1.7 给 出 了 AllElectronics 
的 数据 仓库 的 基本 结构 。 

















































































































册 吵 请 冰 





Wancouver 数据 源 
图 1.7: AllElectronics 典型 的 数据 仓库 结构 








为 便于 制定 决策 ， 数 据 仓库 中 的 数据 围绕 诸如 顾客 、 商 品 、 供 应 商 和 活动 等 主题 组 织 。 数 据 存 
储 ， 从 历史 的 角度 〈 如 过 去 的 5-10 年 ) 提供 信息 ， 并 且 是 汇总 的 。 例 如 ， 数 据 仓 库 不 是 存放 每 个 销 















































售 事务 的 细节 ， 而 是 存放 每 个 商店 ， 或 〈 汇 总 到 较 高 层次 ) 每 个 销售 地 区 每 类 商品 的 销售 事务 汇总 




















通常 ， 数 据 仓库 用 多 维 数据 库 结 构建 模 。 其 中 ， 每 个 维 对 应 于 模式 中 一 个 或 一 组 属性 ， 每 个 音 








元 存放 聚集 度量 ,如 count 或 sales_amount。 数据 仓库 的 实际 物理 结构 可 以 是 关系 数据 存储 或 多 维 数 
据 方 。 它 提供 数据 的 多 维 视 图 ， 并 允许 快速 访问 预计 算 的 和 汇总 的 数据 。 


例 1.2 AllElectronics 的 汇总 销售 数据 数据 方 在 图 1.8(a) 中 。 该 数据 方 有 三 个 维 : address〔 城 市 



























































值 》，time (季度 值 01, 02, 03, 04) 和 item (商品 类 型 值 ， 家 庭 娱乐 、 计 算 机 、 电 话 、 安 全 ) 。 存 
放 在 方 体 的 每 个 单元 中 的 聚集 值 是 sales amount (单位 ，$1000) 。 例 如 ， 安 全 系统 第 一 季度 在 






































Vancouver 的 总 销售 为 $400,000， 存 放 在 单元 <Yancouver,Q1， 安 全 > 中 。 其 它 方 体 可 以 用 于 存放 每 个 























商品 ， 或 每 单个 维 的 总 销售 量 ) 。 口 








ftypes) 




















维 上 的 聚集 和 ， 对 应 于 使 用 不 同 的 SQL 分 组 得 到 的 聚集 值 〈 例 如， 每 个 城市 和 季度 ， 或 每 个 季度 和 





(VancovetOQl, 安全 ) 


Cy “ 
Iy) US 点 000 
Canada “10007 
Ol 
加 
也 2 
Bo 
上 4 
计算 机 安全 
下 电话 
水 ltern 
(types) 





1.8 个 通常 用 于 数据 仓库 多 维 数据 方 ，(a) 展示 AllEIectronics 的 





























汇总 数据 ”(b) 展示 数据 方 (a)) 上 的 下 钻 与 上 卷 结 果 。 为 便于 观 

察 ， 只 给 出 部 分 单元 值 

你 可 能 会 问 : “我 还 听 说 过 数据 集 市 。 数 据 仓库 和 数据 集 市 的 区 别 是 什么 ?” ”数据 仓库 收集 了 

整个 组 织 的 主题 信息 ， 因 此 ， 它 是 企业 范围 的 。 男 一 方面 ， 数 据 集 市 是 数据 仓库 的 一 个 部 门 子 集 。 











女 
IE. 
它 聚 焦 在 选 定 的 主题 上 ， 是 部 门 范围 的 。 






































通过 提供 多 维 数据 视图 和 汇总 数据 的 预计 算 , 数据 仓库 非常 适合 联机 分 析 处 理 (OLAP) . OLAP 
操作 使 用 数据 的 领域 背景 知识 ， 允 许 在 不 同 的 抽象 层 提供 数据 。 这 些 操 作 适 合 不 同 的 用 户 。OLAP 




















操作 的 例子 包括 下 钻 和 上 卷 ， 它 们 允许 用 户 在 不 同 的 汇总 级 别 观察 数据 ， 如 图 1.8(b) 所 示 。 例 如 ， 








可 以 对 按 季 度 汇总 的 销售 数据 下 钻 ， 观 察 按 
上 卷 ， 观 察 按 国 家 汇总 的 数据 。 

















Eh 





[总 的 数据 。 类 似 地 ， 可 以 对 按 城市 汇总 的 销售 数据 












































尽管 数据 仓库 工 
更 深入 的 自动 分 析 。 











1.3.3 事务 数据 库 

















昌 





对 于 文 持 数据 分 析 是 有 
数据 仓库 技术 在 第 2 章 详细 讨论 。 








一 般 地 ， 事 务 数据 库 











的 事务 标识 号 (trans_ID)， 和 一 个 组 成 导 





能 有 一 些 与 之 相关 联 的 附加 表 ， 


二 ID 号 写 、 销售 分 店 ， 村 























;于 o 











| 一 个 文件 组 成 ， 其 
有 务 








包含 关于 销售 的 其 它 信 息 ， 


1 


助 的， 但 是 仍 需 要 更 多 的 数据 挖 所 


中 每 个 记录 代表 一 个 事务 。 





























， 以 便 进 行 











个 事务 包含 一 个 














通常 ， 








的 项 的 列表 (如 ， 在 商店 购买 的 商品 〉。 





事务 笋 据 库 





































































































如 事务 的 日 期 、 顾 客 的 ID 号 





、 销 售 




















例 1.3 ”事务 可 以 存放 在 表 中 ， 每 个 事务 一 个 记录 。AllElectronics 的 事务 数据 库 的 片段 在 图 1.9 
中 给 出 。 从 关系 数据 库 的 观点 ,图 1.9 的 销售 表 是 一 个 髓 套 的 关系 , 因为 属性 ”list of item_ID” 包 合 item 
的 集合 。 由 于 大 部 分 关系 数据 库 系统 不 文 持 舱 套 关系 结构 ,事务 数据 库 通常 存放 在 一 个 类 似 于 网 1.9 
中 的 表格 式 的 展 平 的 文件 中 ， 或 展开 到 类 似 于 图 1.6 的 items_sold 表 的 标准 关系 中 。 口 

Sales 
trans_ID list of item_ID 
T100 11,I3,18,116 


图 1.9: AllElectronics 销售 


作为 AllElectronics 数据 库 的 分 析 者 ， 
答 这 种 查询 可 


回 





事务 包含 商品 号 13? ”。 


假定 你 
品 捆绑 成 组 ， 


是 



























































作为 一 种 扩大 销售 的 策略 。 例 如 ， 台 














向 购买 选 定 计算 机 的 顾客 提供 对 











种 入 











提取 系统 不 能 回答 上 面 这 种 查询 。 





可 以 做 到 。 


1.3.4 高 级 数据 库 系 统 和 高 级 数据 库 应 用 


关系 数据 库 系 统 广泛 地 用 于 商务 应 月 
新 的 数据 库 应 用 需 
i 
本数 据 (包括 文本 、 

















现 并 在 开发 中 ， 以 适应 
新 的 数据 库 应 
电路 〉、 超 文本 和 多 媒 
票 交 换 数据 ) 和 万 维 



































网 (Internet 




















的 数据 结构 和 可 规模 化 的 方法 ， 处 理 





























你 想 问 
能 需要 


然而 ， 通 过 识别 频繁 一 








名 











三 




















2 音 数 据 ) 、 





、 工 程 设 计数 据 (如 建筑 
时 间 相 关 的 数据 (如 历史 数据 或 股 


事务 数据 库 的 片段 


显示 Sandy Smith 购买 的 所 有 
扫描 整个 事务 数据 库 。 


想 更 深 地 挖掘 数据 ， 问 “哪些 商品 适合 一 块 销 售 ” ”这 种 “购物 篮 分 析 ” 使 你 能 够 将 商 
全 定 打印 机 与 计算 机 经 常 一 起 销售 的 知识 ， 你 可 
贵 的 打印 机 打折 ， 和 希望 销售 更 多 较 贵 的 打印 机 。 
块 销 售 的 商品 ， 事 务 数 ] 





商品 ”或 “有 多 少 








以 
常规 的 数据 
图 系统 














据 的 数据 控 # 





OO 


系统 部 件 、 集 成 


设计 、 

















使 得 巨大 的 、 























泛 分 布 的 信息 





复杂 :的 对 象 结构 变 长 记录 、 




































































存储 可 以 利用 〉。 








这 些 应 用 需要 有 效 
半 结 构 化 或 无 结构 的 数据 ， 文 本 






















































































和 多 媒体 数据 ， 以 及 具有 复杂 结构 和 动态 变化 的 数据 库 模 式 。 

为 响应 这 些 需求 ， 开 发 了 先进 的 数据 库 系 统 和 面向 特殊 应 用 的 数据 库 系 统 。 这 些 包 括 面向 对 象 
和 对 象 -关系 数据 库 系 统 、 空 间 数据 库 系 统 、 时 间 和 时 间 序 列 数 据 库 系统 、 异 种 和 遗产 数据 库 系 统 、 
基于 万 维 网 的 全 球 信息 系统 。 

虽然 这 样 的 数据 库 或 信息 存储 需要 复杂 的 机 制 ， 以 便 有 效 地 存储 、 提 取 和 更 新 大 量 复 杂 的 数据 ， 
它们 也 为 数据 挖掘 提供 了 肥沃 的 土壤 ， 提 出 了 挑战 性 的 研究 和 实现 问题 。 本 节 ， 我 们 将 介绍 上 面 列 
举 的 每 种 高 级 数据 库 系 统 。 
面向 对 象 数 据 库 

面向 对 象 数 据 库 基于 面向 对 象 程 序 设 计 范 例 。 用 一 般 术 语 ， 每 个 实体 被 看 作 一 个 对 象 。 对 于 
AllElectronics 例子 ， 对 象 可 以 是 每 个 和 雇员、 顾客、 商品 。 涉 及 一 个 对 象 的 数据 和 代码 封装 在 一 个 单 
元 中 。 每 个 对 象 关 联 : 
四 ”一 个 变量 集 ， 它 描述 数据 。 这 对 应 于 实体 -联系 和 关系 模型 的 属性 。 
四 ”一 个 消息 集 ， 对 象 可 以 使 用 它们 与 其 它 对 象 ， 或 与 数据 库 系 统 的 其 它 部 分 通讯 。 
































四 ”一 个 方法 集 ， 其 中 每 个 方法 存放 实现 一 个 消息 的 代码 。 一 旦 收 到 消息 ,方法 就 返回 一 个 响应 值 。 
例如 ， 消 息 get_pjpoto(employee) 的 方法 将 提取 并 返回 给 定 雇 员 对 象 的 照片 。 


共享 公共 特性 集 的 对 象 可 以 归 入 一 个 对 象 类 。 每 个 对 象 都 是 其 对 象 类 的 实例 。 对 象 类 可 以 组 成 
类 / 子 类 层次 结构 ， 使 得 每 个 类 代表 该 类 对 象 共 有 的 特性 。 例 如 ， 类 employee 可 以 包含 变量 name， 
address 和 birthdate。 假 定 类 sales_person 是 employee 的 子 类 。 一 个 sales_person 对 象 将 继承 属于 其 
超 类 employee 的 所 有 变量 。 此 外 ， 它 还 具有 作为 一 个 销售 员 特 有 的 所 有 变量 (如 ，commission) 。 
这 种 类 继承 特性 有 利于 信息 共享 。 
对 象 -关系 数据 库 

对 象 -关系 数据 库 基于 对 和 象 -关系 数据 模型 构造 。 该 模型 通过 提供 处 理 复杂 对 象 的 丰富 数据 类 型 
和 对 象 定位 ， 扩 充 关 系 模型 。 此 外 ， 它 还 包含 关系 查询 语言 的 特殊 构造 ， 以 便 管理 增加 的 数据 类 型 。 
通过 增加 处 理 复杂 数据 类 型 、 类 层次 结构 和 如 上 所 述 的 对 象 继 承 ， 对 象 -关系 模型 扩充 了 基本 关系 模 
型 。 对 象 -关系 数据 库 在 工业 和 应 用 正 日 趋 流行 。 
在 面向 对 象 和 对 象 -关系 系统 中 的 数据 挖掘 具有 某 些 类 似 性 。 与 关系 数据 挖掘 相 比 ， 需 要 开发 新 
的 技术 ， 处 理 复杂 对 象 结构 、 复 杂 数 据 类 型 、 类 和 子 类 层次 结构 、 特 性 继承 以 及 方法 和 过 程 。 
空间 数据 库 
空间 数据 库 包 含 涉及 空间 的 信息 。 这 种 数据 库 包括 地 理 〈 地 图 ) 数据 库 、VLSI 芯片 设计 数据 库 、 
医疗 和 卫星 图 象 数据 库 。 空 间 数 据 可 能 以 光栅 格式 提供 ， 由 n 维 位 图 或 象 素 图 构成 。 例 如 ， 一 个 2 
维 卫 星 图 象 可 以 用 光栅 数据 表示 ， 每 个 象 素 存 放 一 个 给 定 区 域 的 降雨 量 。 地 图 也 可 以 用 向 量 格式 提 
供 ， 其 中 ， 路 、 桥 、 建 筑 物 和 湖泊 可 以 用 诸如 点 、 线 、 多 边 形 和 这 些 形 状 形成 的 分 化 和 网 络 等 基本 
地 理 








































































































































































































































































































































































































EE 结构 表示 。 
地 理 数据 库 有 大 量 应 用 ， 包 括 从 森林 和 生态 规划 ， 到 提供 关于 电话 和 电缆 、 管 道 和 下 水 系统 位 
置 在 内 的 公共 信息 服务 。 此 外 ， 地 理 数 据 库 还 用 于 车 辆 导航 和 分 流 系统 。 例 如 ， 一 个 用 于 出 租车 的 
系统 可 以 存储 一 个 城市 的 地 图 ， 提 供 关 于 单行 道 、 交 通 拥挤 时 从 区 域 4 到 区 域 B 的 建议 路 径 、 饭 店 
和 医院 的 位 置 、 以 及 每 个 司机 的 当前 位 置 等 信息 。 

你 可 能 会 问 : “空间 数据 库 上 可 以 进行 何 种 数据 挖掘? ”数据 挖掘 可 以 发 现 描述 座 落 在 特定 类 
型 地 点 〈 如 ， 公 园 ) 的 房屋 特征 。 其 它 模 式 可 能 描述 不 同 海拔 高 度 山区 的 气候 ， 或 根据 城市 离 主要 
公路 的 距离 描述 都 市 贫困 率 的 变化 趋势 。 此 外 ， 可 以 构造 “空间 数据 方 ”， 将 数据 组 织 到 多 维 结构 
和 层次 中 ，OLAP 操作 〈 如 ， 下 钻 和 上 卷 ) 可 以 在 其 上 进行 。 


时 间 数 据 库 和 时 间 序 列 数据 库 


时 间 数 据 库 和 时 间 序 列 数据 库 都 存放 与 时 间 有 关 的 数据 。 时 间 数 据 库 通 常 存放 包含 时 间 相 关 属 
性 的 数据 。 这 些 属性 可 能 涉及 若干 时 间 标 签 ， 每 个 都 具有 不 同 的 语义 。 时 间 序 列 数据 库存 放 随 时 间 
变化 的 值 序列 ， 如 ， 收 集 的 股票 交易 数据 。 

数据 挖掘 技术 可 以 用 来 发 现 数据 库 中 对 象 演变 特征 或 对 象 变化 趋势 。 这 些 信息 对 于 决策 和 规划 
是 有 用 的 。 例 如 ， 银 行 数据 的 挖掘 可 能 有 助 于 根据 顾客 的 流量 安排 银行 出 纳 员 。 可 以 挖掘 股票 交易 
数据 , 发 现 可 能 帮助 你 制订 投资 策略 的 趋势 (例如 , 何 时 是 购买 AllElectronics 的 股票 的 最 佳 时 机 ? )。 
通常 ， 这 种 分 析 需 要 定义 时 间 的 多 粒度 。 例 如 ， 时 间 可 以 按 财政 年 、 学 年 或 日 历年 分 解 。 年 可 以 进 
一 步 分 解 成 季度 或 月 。 
文本 数据 库 和 多 媒体 数据 库 

文本 数据 库 是 包含 对 象 文 字 描 述 的 数据 库 。 通 常 ， 这 种 词 描述 不 是 简单 的 关键 词 ， 而 是 长 句子 
或 短文 ， 如 产品 介绍 、 错 误 或 故障 报告 、 警 告 信息 、 汇 总 报告 、 笔 记 或 其 它 文档 。 文 本 数据 库 可 能 
是 高 度 非 规格 化 的 〈 如 ， 万 维 网 上 的 网 页 ) 。 有 些 文本 数据 库 可 能 是 半 结 构 化 的 〈 如 email 消息 和 
一 些 HTML/XML 网 页 ) ， 而 其 它 的 可 能 是 良 结构 化 的 (如 图 书馆 数据 库 ) 。 通 常 ， 具 有 很 好 结构 
的 文本 数据 库 可 以 使 用 关系 数据 库 系统 实现 。 

“文本 数据 库 上 的 数据 挖掘 可 以 发 现 什么 ?” ”说 到 底 ， 可 以 发 现 对 象 类 的 一 般 描述 ， 以 及 关键 
词 或 内 容 的 关联 和 文本 对 象 的 聚 类 行为 。 为 做 到 这 一 点 ， 需 要 将 标准 的 数据 挖掘 技术 与 信息 提取 技 
术 和 文本 数据 特有 的 层次 构造 〈 如 字典 和 辞典 ) ， 以 及 面向 学 科 的 (如 化 学 、 医 学 、 法 律 或 经 济 ) 
术语 分 类 系统 集成 在 一 起 。 


















































































































































































































































































































































































































































































































































































































































多 媒体 数据 库存 放 图 象 、 音 频 和 视频 数据 。 它 们 用 于 基于 图 内 容 的 提取 、 声 音 传 递 、 录 像 点 播 、 
万 维 网 和 识别 口语 命令 的 基于 语音 的 用 户 界 面 等 方面 。 多 媒体 数据 库 必须 支持 大 对 象 ， 因 为 象 视频 
这 样 的 数据 对 象 可 能 需要 数 十 亿 字 节 的 存储 。 还 需要 特殊 的 存储 和 检索 技术 ， 因 为 视频 和 音频 数据 
需要 以 稳定 的 、 预 先 确定 的 速率 实时 检索 ， 防 止 图 象 或 声音 间断 和 系统 缓冲 区 溢出 。 这 种 数据 称 为 
连续 媒体 数据 。 

对 于 多 媒体 数据 库 挖掘 ， 需 要 将 存储 和 检索 技术 与 标准 的 数据 挖掘 方法 集成 在 一 起 。 有 前 途 的 
方法 包括 构造 多 媒体 数据 方 、 多 媒体 数据 的 多 特征 提取 和 基于 相似 的 模式 匹配 。 


异种 数据 库 和 遗产 数据 库 


异种 数据 库 由 一 组 互 连 的 、 自 治 的 成 员 数 据 库 组 成 。 这 些 成 员 相 互通 讯 ， 以 便 交 换 信 息 和 回答 
查询 。 一 个 成 员 数 据 库 中 的 对 象 可 能 与 其 它 成 员 数 据 库 中 的 对 象 很 不 相同 ， 使 得 很 难 将 它们 的 语义 
吸收 进 一 个 整体 的 异种 数据 库 中 。 

许多 企业 需要 遗产 数据 库 ， 作 为 信息 技术 长 时 间 开 发 〈 包 括 使 用 不 同 的 便 件 和 操作 系统 ) 的 结 
果 。 遗 产 数 据 库 是 一 组 异种 数据 库 ， 它 将 不 同 的 数据 系统 组 合 在 一 起 。 这 些 数据 系统 如 关系 或 对 象 
-关系 数据 库 、 层 次 数据 库 、 网 状 数据 库 、 电 子 表格 、 多 媒体 数据 库 或 文件 系统 。 遗 产 数 据 库 中 的 异 
种 数据 库 可 以 通过 网 内 或 网 间 计 算 机 网 络 连接 。 

这 种 数据 库 的 信息 交换 是 困难 的 ， 因 为 需要 考虑 发 散 的 语义 ， 制 定 从 一 种 表示 到 另 一 种 表示 的 
精确 转换 规则 。 例 如 ， 考 虑 不 同学 校 之 间 学 生 学 业 情 况 数据 交换 问题 。 每 个 学 校 可 能 有 自己 的 计算 
机 系统 和 课程 与 评分 体系 。 一 所 大 学 可 能 采用 学 季 系 统 〈 每 学 期 三 个 月 一 译注 ) ， 开 三 门 数据 库 
课程 ， 并 按 由 A+ 到 下 评定 成 绩 ， 而 另 一 所 可 能 采用 学 期 系统 ， 开 两 门 数据 库 课程 ， 并 按 由 1 到 10 
评定 成 绩 。 很 难 制定 这 两 所 大 学 的 课程 -成 绩 转换 精确 的 规则 ， 使 得 信息 交换 很 困难 。 通 过 将 给 定 的 
数据 转换 到 较 高 的 、 更 一 般 的 概念 层 〈 对 于 学 生成 绩 ， 如 不 及 格 、 恨 好 或 优秀 ) ， 数 据 挖 掘 技 术 可 
以 对 此 问题 提供 有 趣 的 解 ， 使 得 数据 交换 可 以 更 容易 地 进行 。 


万 维 网 


万 维 网 和 与 之 关联 的 分 布 信息 服务 (如 ， 美 国 在 线 ，Yahool, Alta Vista, Prodigy) 提供 了 丰富 的 、 
世界 范围 的 联机 信息 服务 ; 这 里 ， 数 据 对 象 被 链接 在 一 起 ， 便 于 交互 访问 。 用 户 通过 链接 ， 从 一 个 
对 象 到 另 一 个 ， 寻 找 有 趣 的 信息 。 这 种 系统 对 数据 挖掘 提供 了 大 量 机 会 和 挑战 。 例 如 ， 理 解 用 户 的 
访问 模式 不 仅 能 够 帮助 改进 系统 设计 《通过 提供 高 度 相 关 的 对 象 间 的 有 效 访问 ) ， 而 且 还 可 以 引导 
更 好 的 市 场 决 策 ( 例 如， 通过 在 频繁 访问 的 文档 上 布置 广告 ,或 提供 更 好 的 顾客 /用 户 分 类 和 行为 分 
析 ) 。 在 这 种 分 布 式 信息 环境 下 ， 捕 获 用 户 访问 模式 称 作 挖 掘 路 径 遍 历 模 式 。 
尽管 网 页 看 上 去 好 看 并 且 信息 丰富 ， 但 它们 实际 上 是 非 结构 化 的 并 且 缺 乏 预 定义 的 模式 、 类 型 
和 格式 。 这 样 ， 对 于 系统 地 进行 信息 提取 和 数据 挖掘 ， 计 算 机 很 难 理解 各 种 网 页 的 语义 并 把 它们 以 
有 组 织 的 形式 结构 化 。 提 供 基 于 关键 字 的 搜索 服务 ， 而 不 理解 特定 网 页 的 上 下 文 ， 上 只 能 给 用 户 提供 
有 限 的 帮助 。 例 如 ， 基 于 单个 关键 字 的 网 搜索 可 能 返回 数 以 百 计 的 指针 ， 指 向 包含 该 关键 字 的 网 页 ， 
而 其 中 大 部 分 与 用 户 期 望 的 查找 无 关 。 数 据 挖掘 可 以 提供 比 网 搜索 服务 更 多 的 帮助 吗 ?” 数据 挖掘 能 
够 帮助 我 们 学 习 网 上 信息 的 一 般 分 布 、 网 页 特征 和 不 同 网 页 之 间 的 关联 吗 ?” 能够 帮助 我 们 找到 特定 
主题 的 权威 网 页 吗 ? 这 些 问题 对 高 级 的 数据 挖掘 提出 了 新 的 挑战 。 
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1.4 数据 挖掘 功能 一 一 可 以 挖掘 什么 类 型 的 模式 ? 


我 们 已 经 观察 了 可 以 进行 数据 挖掘 的 各 种 数据 存储 和 数据 库 系 统 。 现 在 ， 让 我 们 考察 可 以 挖掘 
的 数据 模式 。 
数据 挖掘 功能 用 于 指定 数据 挖掘 任务 中 要 找 的 模式 类 型 。 一 般 地 ， 数 据 挖掘 任务 可 以 分 两 类 ; 
描述 和 预测 。 描 述 性 挖掘 任务 刻 划 数据 库 中 数据 的 一 般 特 性 。 预 测 性 挖掘 任务 在 当前 数据 上 进行 推 
断 ， 以 进行 预测 。 
在 某 些 情况 下 ， 用 户 不 知道 他 们 的 数据 中 什么 类 型 的 模式 是 有 趣 的 ， 因 此 可 能 想 并 行 地 搜索 多 
种 不 同 的 模式 。 这 样 ， 重 要 的 是 ， 数 据 挖 据 系 统 要 能 够 挖掘 多 种 类 型 的 模式 ， 以 适应 不 同 的 用 户 需 
求 或 不 同 的 应 用 。 此 外 ， 数 据 挖掘 系统 应 当 能 够 发 现 各 种 粒度 〈 即 ， 不 同 的 抽象 层 ) 的 模式 。 数 据 
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系统 应 当 允 许 用 户 给 出 提示 ， 指 导 或 聚焦 有 趣 模式 的 搜索 。 由 于 有 些 模 式 并 非 对 数据 库 中 的 所 
有 数据 者 成 立 ， 通 常 每 个 被 发 现 的 模式 带 上 一 个 确定 性 或 “可 入 性 ”度量 
数据 挖掘 功能 以 及 它们 可 以 发 现 的 模式 类 型 介绍 如 下 。 


1.4.1 概念 /类 描述 : 特征 和 区 分 


数据 可 以 与 类 或 概念 相关 联 。 例 如 , 在 AllElectronics 商店 ， 销售 


顾客 概念 包括 bigSpenders 和 budgetSpenders。 用 汇总 的 、 
述 称 为 类 /概念 描述 。 这 种 
称 为 目标 类 ) 的 数据 ， 或 (2) 数 





全 已 日 .本 " 


用 征 信 


征 化 ， 





























的 。 这 种 类 或 概念 的 
一 般 地 汇总 所 研究 类 



































类 (通常 征 














的 商品 类 包 提 





6 计算 机 和 打印 机 ， 























述 可 以 














个 比较 类 (通常 称 为 对 比 类 》 进 行 比较 ， 或 (3) 数据 特征 化 和 比较 。 











数据 特征 是 目标 类 数据 的 一 
例如 ， 为 研究 上 一 年 销售 增加 10% 的 软件 产品 的 特征 ， 


化 


= = 





些 产 品 的 数据 。 
有 许多 有 效 的 方法 ， 将 数据 特征 化 和 汇总 。 例 如 ， 基 于 数据 方 的 OLAP 上 卷 操 作 (1.3.2 小 节 ) 


可 以 用 来 执行 用 户 控制 的 、 沿 着 
向 属性 
技术 将 在 第 5 章 讨论 。 
征 的 输出 可 以 用 多 种 形式 提供 。 





讨论 。 面 











数据 特 4 








站 定 维 


用 来 进 
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的 归纳 技术 可 以 




















的 多 维 表 。 


结果 描述 也 可 以 月 











它们 的 转换 在 第 5 章 讨 论 。 


例 1.4 ”数据 挖 抉 系统 应 当 能 够 产 9 


在 人 





数据 区 分 是 将 目 
类 由 用 户 指 定 ， 而 对 


F 意 : 维 下 锁 ， 如 在 occupation 下 钻 ， 
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件 产 品 三 


类 似 。 
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区 分 
分 目标 类 和 对 
进行 操作 。 

















例 1.5 数据 挖 
算 机 产品 的 顾客 和 偶尔 〈 即 ， 每 年 少 于 3 次 ) 购买 这 种 产品 的 顾客 。 
产品 的 顾客 80% 在 20-40 岁 之 间 
， 没 有 大 学 学 位 。 





廊 ， 如 经 浓 
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时 期 销 


比 类 。 用 规则 表 


购买 这 利 


客 60% 或 者 太 老 ， 或 者 太 年 
如 income_level， 可 以 帮助 发 现 F 





售 全 少 下 降 30% 的 那些 

















LI 


股 特 征 或 特性 的 汇总 。 


的 数据 汇总 。 
数据 的 泛 化 和 特 


通常 ， 用 户 于 





简洁 的 、 精 确 
通过 下 述 方法 得 到 (1) 数据 特 


间 定 类 




















的 方式 描述 每 个 类 和 概念 可 
































据 区 分 ， 将 目标 类 与 一 个 或 多 





的 数据 通过 数据 库 查 询 收 

















可 以 通过 














包括 饼 图 、 条 图 、 曲 线 、 多 维 数据 方 和 包括 交 
上 泛 化 关系 或 规则 《〈 称 作 特征 规则 ) 形式 提供 。 





























述 如 何 输 LU， 











示 的 区 分 























Es 


? ”输出 的 形式 类 似 于 特征 
述 称 为 区 分 规则 。 用 户 应 当 能 够 对 


该 过 程 将 在 第 2 
征 化 ， 而 不 必 一 


会 忆 天 


用 和 布 
于 数据 区 分 的 方法 与 用 于 





执行 一 个 SQL 查询 收集 关于 这 


章 介 台 





数据 仓库 时 进一步 详细 
步 步 地 与 用 户 交 互 。 这 一 























表 在 内 
这 些 不 同 的 输出 形式 和 





一 年 之 内 在 AllElectronics 花费 $1000 以 上 的 顾客 汇总 特征 的 
描述 。 结 果 可 能 是 顾客 的 一 般 轮 廊 ， 如 年 龄 在 40-50、 有 工作 、 有 很 好 的 信誉 度 。 
以 便 根 据 他 们 的 职业 来 观察 这 些 顾客 。 口 


标 类 对 象 的 一 般 特 性 与 一 个 或 多 个 对 比 类 对 象 的 一 般 特 性 比较 。 
应 的 数据 通过 数据 库 查 询 提 取 。 例 如 ， 你 可 
进行 比较 。 


系统 将 允许 用 户 








目标 类 和 对 比 
望 将 上 一 年 销售 增加 10% 的 软 
六 数据 特征 的 那些 
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包括 比较 度量 里 ， 帮助 区 
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掘 系 统 应 当 能 够 比较 两 组 AllElectronics 顾客 ， we (每 
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1.4.2 关联 分 析 
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关联 分 析 广 泛 用 于 购物 篮 或 寻 
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汗 





| 


是 第 5 章 的 主题 


是 关联 分 析 ? ”关联 分 析 发 现 关联 规则 ， 这 些 规则 展示 属性 
H 现 的 条 件 。 
更 形式 地 , 关联 规则 是 形 如 二 了, 即 "4j 和 .人 4, 过 Bj 和 .A B* 的 规则 ; 其 
- 值 对 。 关 联 规则 解释 为 “满足 X 中 条 件 的 数据 库 元 组 多 3 


例 1.6 给 定 AllElectronics 关系 数据 库 ， 一 个 数据 挖 








有 务 数据 分 析 。 











抉 系统 可 


» 0 
维 下 钻 ， 如 治 occupation 维 ， 或 添加 新 的 维 ， 


能 发 现 如 下 形式 的 规 贝 














特征 和 区 分 描述 的 输出 
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多 于 2 次 ) 购买 计 
能 是 一 般 的 比较 轮 


购买 这 种 产品 的 顾 








果 描述 可 
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- 值 频 繁 地 在 给 定数 据 集中 一 
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也 满足 了 ， 











age(X,"20—29")Aincome(X,"20—30K")S buys(X,"CD _ player") 
[support = 2%,confidence = 60%] 
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，X 是 变量 ， 代 表 顾 客 。 该 规则 是 说 





， 所 在 














究 的 AllElectronics 顾客 2% (支持 度 ) 在 20-29 岁 ， 


年 收入 20-29K, 并 日 在 AllElectronics 购买 CD 机 。 这 个 年 龄 和 收入 组 的 顾客 购买 CD 机 的 可 能 性 有 


60% 


每 个 
假定 作为 AllElectronics 的 市 场 部 经 天 


规则 的 一 个 例子 是 


该 规则 是 说 ， 如 果 事 务 T 了 包含 "computer”， 则 它 也 包含 ”softrware” 的 可 能 性 
1% 包 含 二 者 。 这 个 规则 涉及 单个 重复 的 属性 或 谓词 ( 即 ，contains) 。 包 合 六 
作 单 维 关联 规则 。 去 掉 谓 词 


1.4.3 
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(置信 和 度 或 可 信 性 
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注意 ， 这 是 一 个 以 上 属性 之 间 ( 即 age, income 和 puys〉 的 关 
属性 称 为 一 个 维 ， 上 面 的 规则 可 以 称 作 多 维 关联 规则 。 























E， 你 想 知 道 在 
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类 。 采 用 多 维 数据 库 使 用 的 术语 ， 





， 哪 些 商 品 经 常 一 块 购买 。 这 种 


contains(T,"computer" ) 一 contains(T," software") 





[support = 1%,confidence =50%] 























有 50%， 并 且 所 有 事务 的 
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分 类 和 预测 








分 类 是 这 样 的 过 程 ， 它 找 

















符号 ， 上 面 的 规则 可 以 简 
了 许多 有 效 的 关联 规则 挖掘 算法 。 关 联 规则 挖掘 在 


























个 谓词 的 关联 规则 称 




















有 地 写成 computer 一 software[1%,50%]。 口 


第 6 章 详 细 讨 论 。 








述 或 识别 数据 类 或 概念 的 模型 (或 函数 )， 以 便 能 够 使 用 模型 预测 类 


标号 未 知 的 对 象 。 导 出 模型 是 基于 对 训练 数据 集 〈 即 ， 其 类 标号 已 知 的 数据 对 象 ) 的 分 析 。 


数学 


每 
每 个 


神经 网 络 是 


不 知 


及 数据 值 预测 和 类 标号 预测 ， 通 常 预测 限于 值 预测 ， 并 因 
的 分 布 趋势 识别 。 


应 当 
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“如 何 提供 导出 模型 ? ” 
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导出 模式 可 以 
由 经 网 络 。 判 定 树 是 一 个 类 似 于 
尺 表 测试 的 一 个 输出 ,树叶 代表 类 或 
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经 元 的 处 理 单元 ， 
来 预测 数据 对 象 的 类 标号 。 然 而 ， 在 某 些 应 
被 预测 的 值 是 数值 数据 时 
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元 之 间 加 权 连 
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相关 分 析 可 能 需要 在 分 类 和 
排除 。 


例 1.7 假定 作为 AllElectronics 的 销 
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三 大 类 : 好 的 反映 , 














ategory， 对 这 三 类 的 每 一 种 导出 模型 。 

















医 | 








视图 。 假 定 结 果 分 类 
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等 反映 和 差 的 反映 。 你 想 根 据 商品 的 
结果 分 类 将 最 大 限度 地 区 别 每 一 
判定 树 的 形式 表示 。 例 如 ， 判 定 树 可 能 把 price 看 作 














。 该 树 可 能 揭示 , 在 price 


























第 7 章 将 详细 讨论 分 类 和 预测 。 


1.4.4 聚 类 分 析 
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相似 性 、 


中 的 


象 类 


后, 帮助 进 
的 判定 树 可 以 帮助 你 理解 给 定 销售 活动 的 影响 ， 并 帮助 你 设计 未 来 更 





步 





预测 之 前 进行 ， 它 试图 识别 对 于 分 类 和 预测 无 用 的 属 ! 
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区 分 每 类 对 象 的 其 它 特性 





二 | 中 $ 人 们 可 
+ ， 通 常 称 之 为 预测 。 尺 管 预测 可 以 涉 
此 不 同 于 分 类 。 预 测 也 包含 基于 可 


多 种 形式 表示 ， 如 分 类 (IF-THEN》 规 则 、 判 定 树 、 
程 图 的 结构 ， 每 个 结 点 代表 一 个 属性 值 
分 布 。 判 定 树 容 易 转换 成 分 类 规则 。 当 用 于 分 类 时 ， 
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望 预测 茶 些 遗漏 的 或 
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并 。 这 些 属 性 














经 理 ， 你 想 根 据 对 销售 活动 的 反映 ， 对 商店 的 商品 集合 
者 述 特性 ， 如 price, brand, place_made 




















个 类 ， 提 供 有 组 织 的 数 
四. 和 人 已 


最 能 区 分 三 个 类 的 
包括 brand 和 place_made。 























有 效 的 销售 活动 。 口 


“ 何 为 聚 类 分 析 ? ”与 分 类 和 预测 不 同 ， 聚 类 分 析 数 据 对 象 ， 而 不 考虑 已 知 的 类 标号 。 一 般 地 ， 














数据 中 不 提 





上 共 类 标号 ， 基 





了 





对 象 具 有 很 高 的 相似 性 ， 而 与 其 它 
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例 1.8 聚 类 


示 每 个 购物 目标 群 。 图 





为 不 知道 从 何 ] 
最 小 化 类 间 的 相似 性 的 原则 进行 


引 





聚 类 





或 分 组 。 即 ， 对 
类 中 的 对 象 很 不 相似 。 所 形成 的 每 
| 它 可 以 导出 规则 。 聚 类 也 便于 分 类 编制 ， 将 观察 组 织 成 类 分 层 结构 ， 类 似 的 事件 组 织 




















开始 。 聚 类 可 以 产生 这 种 标号 。 对 象 根据 最 大 化 类 内 的 
象 的 聚 类 这 样 形 成 ， 使 得 在 





一 个 聚 类 


可 以 看 作 一 个 对 
在 一 





个 聚 类 
































图 。 数 据点 的 三 


分 析 可 以 在 AllElectronics 的 顾客 数据 上 进行 ， 识 别 顾客 的 同类 子 群 。 这 些 聚 类 可 
1.10 展示 一 个 城市 内 顾客 的 2-D 





个 聚 类 是 显 





而 易 见 的 。 


聚 类 分 析 形 成 第 8 章 的 主题 。 





1.4.5 局 外 者 分 析 


数据 库 中 可 能 包含 一 些 数 据 对 象 , 它们 与 数据 的 一 般 行为 或 模型 不 一 致 。 这 些 数据 对 象 是 局 外 
者 。 大 部 分 数据 挖 气 方 法 将 局 外 者 视 为 噪音 或 例外 而 丢弃 。 然而， 在 一 些 应 用 中 如 ， 欺 骗 检 测 》， 
罕见 的 事件 可 能 比 正 规 出 现 的 那些 更 有 趣 。 局 外 者 数据 分 析 称 作 局 外 者 挖掘。 
局 外 者 可 以 使 用 统计 试验 检测 。 它 假定 一 个 数据 分 布 或 概率 模型 ， 并 使 用 距离 度量 ， 到 其 它 聚 
类 的 距离 很 大 的 对 象 被 视 为 局 外 者 。 基 于 偏差 的 方法 通过 考察 一 群 对 象 主 要 特征 上 的 差别 识别 局 外 
者 ， 而 不 是 使 用 统计 或 距离 度量 。 




























































































图 1.10 ”关于 一 个 城市 内 顾客 的 2-D 图 , 显示 了 3 个 聚 类 , 每 个 
聚 类 的 “中 心 ” 用 “+” 标 记 


例 1.9 局 外 者 分 析 可 以 发 现 信 用 卡 欺骗 。 通过 检测 一 个 给 定 帐 号 与 正常 的 付费 相 比 , 付款 数额 
特别 大 来 发 现 信用 卡其 骗 性 使 用 。 局 外 者 值 还 可 以 通过 购物 地 点 和 类 型 ， 或 购物 频率 来 检测 。 口 


局 外 者 分 析 也 在 第 8 章 讨 论 。 


















































1.4.6 演变 分 析 





数据 演变 分 析 描 述 行为 随时 间 变 化 的 对 象 的 规律 或 趋势 ， 并 对 其 建 模 。 尽管 这 可 能 包括 时 间 相 
关 数 据 的 特征 、 区 分 、 关 联 、 分 类 或 罕 类 ， 这 类 分 析 的 不 同 特点 包括 时 间 序列 数据 分 析 、 序 列 或 周 
期 模式 匹配 和 基于 类 似 性 的 数据 分 析 。 

例 1.10 假定 你 有 纽约 股票 交易 所 过 去 几 年 的 主要 股票 市 场 〈 时 间 序 列 ) 数据 ， 并 希望 调查 高 
科技 工业 公司 股份 。 股 票数 据 挖掘 研究 可 以 识别 整个 股票 市 场 和 特定 的 公司 的 股票 演变 规律 。 这 种 
规律 可 以 帮助 预测 股票 市 场 价 格 的 未 来 走向 ， 帮 助 你 对 股票 投资 作出 决策 。 口 

数据 演变 分 析 将 在 第 9 章 进一步 讨论 。 





















































1.5 所 有 模式 都 是 有 趣 的 吗 ? 
数据 挖掘 系统 具有 产生 数 以 千 计 ， 甚 至 数 以 万 计 横 式 或 规则 的 潜在 能 





























你 可 能 会 问 : “所 有 模式 都 是 有 趣 的 吗 ? ”答案 是 否定 的 。 实 际 上 ， 对 于 给 定 的 用 户 ， 在 可 能 
产生 的 模式 中 ， 只 有 一 小 部 分 是 他 感 兴趣 的 。 

这 对 数据 挖掘 系统 提出 了 一 系列 的 问题 。 你 可 能 会 想 : “什么 样 的 模式 是 有 趣 的 ? 数据 挖 抉 系 
统 能 够 产生 所 有 有 趣 的 模式 吗 ? 数据 挖掘 系统 能 够 仅 产 生 有 趣 的 模式 吗 ? ” 

对 于 第 一 个 问题 ， 一 个 模式 是 有 趣 的 ， 如 果 〈1) 它 易 于 被 人 理解 ，〈2) 在 某 种 程度 上 ， 对 于 
新 的 或 测试 数据 是 有 效 的 ， 3) 是 潜在 有 用 的 ，《〈4) 是 新 颖 的 。 如 果 一 个 模式 符合 用 户 确信 的 某 
种 假设 ， 它 也 是 有 趣 的 。 有 趣 的 模式 表示 知识 。 

存在 一 些 模式 兴趣 度 的 客观 度量 。 这 些 基于 所 发 现 模式 的 结构 和 关于 它们 的 统计 。 对 于 形 如 
X=> 了 的 关联 规则 ,一 种 客观 度量 是 规则 的 支持 度 。 规 则 的 支持 度 表示 满足 规则 的 样本 百分比 。 文 持 
度 是 概率 P(XUY)， 其 中 ,XX UY 表示 同时 包含 X 和 了 的 事务 ， 即 ， 项 集 X 和 YY 的 并 。 关 联 规则 
的 另 一 种 客观 度量 是 置信 度 。 置 信 度 是 条 件 概率 已 (了 | X); 即 ， 包 含 和 的 事务 也 包含 了 的 概率 。 更 
形式 地 ， 支 持 度 和 置信 度 定义 为 


















































































































































































































































support (X > Y)=P(XUY) 
confidence (X > Y)=P(Y|X) 


一 般 地 ， 每 个 兴趣 度 度量 都 与 一 个 阐 值 相关 联 ， 该 立 值 可 以 由 用 户 控制 。 例 如 ， 不 满足 置信 和 度 
闵 值 50% 的 规则 可 以 认为 是 无 趣 的 。 低 于 阔 值 的 规则 可 能 反映 噪音 、 例 外 ， 或 少数 情况 ， 可 能 不 太 
有 价值 。 

尽管 客观 度量 可 以 帮助 识别 有 趣 的 模式 ， 但 是 仅 有 这 些 还 不 够 ， 还 要 结合 反映 特定 用 户 需 要 和 
兴趣 的 主观 度量 。 例 如 ， 对 于 市 场 经 理 ， 描 述 频繁 在 AllElectronics 购物 的 顾客 特性 的 模式 应 当 是 有 
趣 的 ， 但 对 于 研究 同一 数据 库 ， 分 析 雇员 业绩 模式 的 分 析 者 ， 它 可 能 不 是 有 趣 的 。 此 外 ， 有 些 根据 
客观 标准 有 趣 的 模式 可 能 反映 一 般 知 识 ， 因 而 实际 上 并 不 令 人 感 兴 趣 。 主 观 兴趣 度 度量 基于 用 户 对 
数据 的 确信 。 这 种 度量 发 现 模式 是 有 趣 的 ， 如 果 它 们 是 出 乎 意料 的 《根据 用 户 的 确信 ) ， 或 者 提供 
用 户 可 以 采取 行动 的 策略 信息 。 在 后 一 种 情况 下 ， 这 样 的 模式 称 为 可 行动 的 。 意 料 中 的 模式 也 可 能 
是 有 趣 的 ， 如 果 它 们 证 实 了 用 户 希 望 验 证 的 假设 ， 或 与 用 户 的 预感 相似 。 

第 二 个 问题 “数据 挖掘 系统 能 够 产生 所 有 有 趣 的 模式 吗 ? ” 涉及 数据 挖掘 算法 的 完全 
性 。 期 望 数 据 挖 气 系 统 产 生 所 有 可 能 的 模式 是 不 现实 的 和 低 效 的 。 实 际 上 ， 应 当 根据 用 户 提供 的 限 
制 和 兴趣 度 对 搜索 聚焦 。 对 于 某 些 数据 挖掘 任务 ， 这 通常 能 够 确保 算法 的 完全 性 。 关 联 规则 挖掘 就 
是 一 个 例子 ， 那 里 ， 使 用 限制 和 兴趣 度 度量 可 以 确保 挖掘 的 完全 性 。 所 涉及 的 方法 细节 将 在 第 6 章 
详细 考察 。 

最 后 ， 第 三 个 问题 一 一 “数据 挖掘 系统 能 够 仅 产 生 有 趣 的 模式 吗 ?” 是 数据 挖掘 的 优化 问题 。 
对 于 数据 挖掘 系统 ， 仅 产生 有 趣 的 模式 是 非常 期 望 的 。 这 对 于 用 户 和 数据 挖掘 系统 是 非常 有 效 的 ， 
因为 这 样 就 不 需要 搜索 所 产生 的 模式 ， 以 便 识别 真正 有 趣 的 模式 。 在 这 方面 已 经 有 了 进展 。 然 而 ， 
在 数据 挖 气 中， 这 种 优化 仍然 是 个 挑战 。 

为 了 有 效 地 发 现 对 于 给 定 用 户 有 价值 的 模式 ， 兴 趣 度 度量 是 必需 的 。 这 种 度量 可 以 在 数据 挖 气 
步 之 后 使 用 ， 根 据 它们 的 兴趣 度 评估 所 发 现 的 模式 ， 过 滤 掉 不 感 兴趣 的 那些 。 更 重要 的 是 这 种 度量 
可 以 用 来 指导 和 限制 发 现 过 程 ， 剪 去 模式 空间 中 不 满足 预先 设 定 的 兴趣 度 限制 的 子 集 ， 改 善 搜索 性 


台 已 
月 PE 。 





















































































































































































































































































































































































































































































































































































































































对 于 每 类 可 挖掘 的 模式 ， 评 估 兴 趣 度 和 使 用 它们 改善 数据 挖掘 的 有 效 性 的 方法 将 在 全 书 加 以 讨 


论 。 




















1.6 数据 挖掘 系统 的 分 类 


数据 挖掘 是 一 个 交叉 科学 领域 ， 受 多 个 学 科 影 响 〈 见 图 1.11) ， 包 括 数据 库 系 统 、 统 计 、 机 器 
学 习 、 可 视 化 和 信息 科学 。 此 外 ， 依 赖 于 所 用 的 数据 挖掘 方法 ， 可 以 使 用 其 它 学 科 的 技术 ， 如 神经 
网 络 、 模 糊 / 粗 米 集 理论 、 知 识 表示 、 归 纳 逻 辑 程 序 设计 、 或 高 性 能 计算 。 依 赖 于 所 挖 抉 的 数据 类 型 
或 给 定 的 数据 挖掘 应 用 ， 数 据 挖 气 系 统 也 可 能 集成 空间 数据 分 析 、 信 息 提取 、 模 式 识 别 、 图 象 分 析 、 
信号 处 理 、 计 算 机 图 形 学 、Web 技术 、 经 济 、 或 心理 学 领域 的 技术 。 

















































































































: 数据 挖掘 受 多 学 科 的 影响 























可 视 化 
图 1.11 
由 于 数据 挖 气 源 于 多 个 学 科 ， 因 此 数据 挖 
这 样 ， 就 需要 对 数据 挖掘 系统 给 出 一 个 清楚 


























加 研究 就 产生 了 大 量 的 、 各 种 不 同类 型 数据 控 # 
的 分 类 。 这 种 分 类 可 以 帮助 




















户 区 分 数据 挖掘 系统 ， 确 








图 系统。 




















定 最 适合 其 需要 的 数据 挖 据 系 统 。 根 据 不 同 的 标准 ， 数 据 挖掘 系统 可 以 分 类 如 下 ; 


根据 挖掘 的 数据 库 类 型 分 类 : 数据 挖掘 系统 可 以 根据 控 
可 以 根据 不 同 的 标准 《如 数据 模型 ， 
据 挖 抉 技术。 这 样 ， 数 据 挖 扩 
例如 ， 如 果 根 据 数 据 模型 分 类 ， 我们 可 以 有 关系 
据 仓库 的 数据 挖掘 系统 。 如 果 
本 的 、 或 多 媒体 的 数据 挖掘 系 统 ， 或 WWW 数据 控 



































时 系统 就 可 以 相应 分 类 。 



































民 据 所 处 理 的 数据 的 特 





























加 的 数据 库 


类 型 分 类 





。 数 据 库 系 统 本 身 







































































































































































或 数据 或 所 涉及 的 应 用 类 型 ) 分类， 每 一 类 可 能 需要 自己 的 数 


的 、 事 务 的、 面向 对 象 的 、 对 象 -关系 的 、 或 数 
定 类 型 分 类 ， 我 们 有 空间 的 、 时 间 序 列 的 、 文 
加 系统 。 





请 1 


据 数据 挖掘 


笨 个 六 




















- 计 刀 大 。 


区 分 ， 包 括 泛 化 知识 《在 高 抽 


噪音 排除 。 这 些 方 





根据 挖掘 的 知识 类 型 分 类 : 数据 挖掘 系统 可 以 根据 所 挖掘 的 知识 类 型 分 类 。 即 ， 模 
的 功能 ， 如 特征 、 区 分 、 关 联 、 聚 类 、 局 外 者 、 趋 势 和 演化 分 析 、 偶 差分 析 、 类 似 性 分 析 
一 个 全 面 的 数据 挖掘 系统 应 当 提供 多 种 和 /或 集成 的 数据 挖掘 功能 。 

此 外 ， 数 据 挖掘 系统 可 以 根据 所 挖掘 的 知识 的 粒度 或 抽象 层 进行 
象 层 ) ， 原 始 层 知识 〈 在 原始 数据 层 ) ， 或 多 层 知 识 〈 考 虑 若干 抽象 层 ) 。 一 个 先进 的 数据 挖掘 系 
统 应 当 文 持 多 抽象 层 的 知识 发 现 。 

数据 挖掘 系统 还 可 以 分 类 为 挖掘 数据 规律 (通常 出 现 的 模式 ) 和 数据 反 规 律 ( 如 例外 或 局 外 者 ) 。 
一 般 地 ， 概 念 描述 、 关 联 分 机、 分类、 预测 和 聚 类 挖掘 数据 规律 ， 将 局 外 者 作为 
法 也 能 帮助 检测 局 外 者 。 














根据 所 用 的 技术 分 类 : 数据 挖掘 系统 也 可 以 根据 所 用 的 数据 挖掘 技术 
用 户 交 互 程度 〈 例 如 ， 自 动 系统 、 交 互 探 查 系 统 、 碍 询 驱动 系统 ) ， 或 所 月 
面向 数据 库 或 数据 仓库 的 技术 ， 机 器 学 习 、 统 计 、 可 视 化 、 模 式 识别 、 神 经 网 络 等 等 ) 
效 的 、 集 成 的 技术 ， 结 合 
分 类 。 例 如， 可 
用 通常 需要 集成 对 于 该 应 用 特别 有 效 的 方法 。 























的 数据 挖掘 系统 通 














政 、1 
因 























常 采用 多 种 数据 挖 扩 
根据 应 用 分 类 : 数据 挖掘 系统 可 以 根据 其 应 月 
电讯 、DNA、 股 票 市 场 、e_mail 等 等 。 不 同 的 应 
此 ， 普 通 的 、 全 能 
本 书 的 第 5 章 至 第 8 章 根据 所 挖掘 的 知识 类 型 组 
系统 上 上， 复杂 的 数据 类 型 的 挖掘 
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加 技术 ， 或 采用 有 
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有 些 数 据 挖 



































的 数据 挖掘 系统 可 能 并 不 适合 特 
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定 领 


S\N\o 


























域 的 挖掘 任务 。 
在 第 9 章 ， 我 们 讨论 在 











口 
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第 10 章 讨论 一 些 数 





ho 


1.7 数据 挖掘 的 主要 问题 





本 书 强调 数据 挖 





WW 


如 下 : 

















轩 的 主要 问题 ， 考 虑 挖掘 技术 、 月 


据 挖掘 应 用 。 











昌 户 界面 、 性 能 和 各 种 数据 














这 些 技 术 可 以 根据 





的 数据 分 析 方 法 (例如 ， 





述 。 复杂 
一 些 方法 的 优点 。 
据 系 统 特别 适合 财 


























各 种 先进 的 数据 库 


类 型 


ER 这 些 问 题 介 





数据 挖掘 技术 和 用 户 界 面 问题 : 这 反映 所 挖掘 的 知识 类 型 、 
知识 的 使 用 、 特 定 的 挖掘 和 知识 显示 。 








在 多 粒度 上 挖 据 知 识 的 能 力 、 领 域 





























在 数据 库 中 挖 据 不 同类 型 的 知识 : 





统 应 当 履 盖 广 谱 的 数据 分 析 和 知识 发 现任 务 ， 








技术 。 

















多 个 抽象 层 的 交互 知识 挖掘 : 

















由 于 很 难 准 而 
当 是 交互 的 。 对 于 包含 大 量 数 据 的 数据 库 ， 应 当 使 








角 地 知道 能 够 在 数据 库 ! 












































于 不 同 的 用 户 可 能 对 不 同类 型 的 知识 感 兴趣 ， 数 据 挖 掘 系 
包括 数据 特征 、 区 分 、 关 联 、 案 类、 趋势 、 偏 差 
分 析 和 类 似 性 分 析 。 这 些 任 务 可 能 以 不 同 的 方式 使 用 相同 的 数据 库 ， 并 需要 开发 大 量 数据 挖掘 






































发 现 什 么 ， 数 据 挖掘 过 程 应 








适当 的 选 样 技术 ， 进 行 交 互 式 数据 探查 。 

















交互 式 挖 握 多 许 用 户 聚 焦 搜 索 模 式 ， 根 据 返回 的 结果 提出 和 精炼 数据 挖掘 请 求 。 特 殊 地 ， 类 似 

















于 OLAP 在 数据 方 上 做 的 




















嘟 样 ， 应 当 通 过 交互 地 在 数据 名 











E 间 和 知识 空间 下 钻 、 上 卷 和 转轴 ， 挖 























掘 知识 。 
和 发 现 模 式 。 


结合 背景 知识 : 可 以 使 用 背景 知识 或 关于 所 看 

















用 这 种 方法 ， 用 户 可 以 与 数据 挖 气 系 统 交互 ， 以 不 同 的 粒度 和 从 不 同 的 角度 观察 数据 

















绍 唱 有明 


式 以 简 














洁 的 形式 ， 在 不 同 的 扫 








可 以 帮助 聚焦 和 加 快 数据 挖掘 过 程 ， 或 总 
井 和 特定 的 数据 挖掘 : 关系 查询 语言 (如 $ 
发 高 级 数据 挖掘 查询 语言 ， 使 得 用 户 通过 说 明 分 析 任 务 的 相关 数据 集 、 
被 发 现 的 模式 必须 满足 的 条 件 和 兴趣 度 限 制 ， 











数据 挖掘 查询 语 
查询 。 类 似 地 ， 需 要 
领域 知识 、 所 挖掘 的 数据 类 型 、 



























































究 领 域 的 信息 来 指导 发 现 过 程 ， 
上 象 层 表 示 。 关 于 数据 库 的 领域 知识 ， 如 完整 性 限 
F 佑 发 现 的 模式 的 兴趣 度 。 





开 使 得 发 现 的 模 
唱和 演绎 规则 ， 


























了 hk 








QL) 允许 用 户 提 出 特定 的 数据 提取 














外 述 特定 的 数据 














挖 抉 任务 。 这 种 语言 应 当 与 数据 库 或 数据 仓库 查询 语言 集成 ， 并 且 对 于 有 效 的、 灵活 的 数据 挖 





据 是 优化 的 。 











数据 挖掘 结果 的 表示 和 显示 : 发 现 的 知识 应 当 
表示 ， 使 得 知识 易于 理解 ， 能 够 直接 被 人 使 用 。 
表达 能 力 的 知识 表示 技术 ， 如 
处 理 噪 音 和 不 完全 数据 : 存放 在 数据 库 " 
这 些 对 象 可 能 搞 乱 分 析 过 程 ， 导 致 数据 与 所 构造 的 入 
式 的 精确 性 可 能 很 差 。 需 要 处 理 数 据 噪音 的 数据 清理 方法 和 





























] 有 





这 要 求 系统 采 



































外 情况 的 
模式 评估 


局 外 者 挖掘 方法 。 























兴趣 度 问 题 : 数据 挖 据 系 统 可 



































数据 可 能 反映 
Hf 识 模型 过 分 适应 。 其 结果 是 ， 所 发 现 的 模 
I 数据 分 析 方 法 ， 以 及 发 现 和 分 析 例 


j] 高 级 语言 、 
如 果 数 据 挖 
树 、 表 、 

















朵 百 


























图 、 


As 


音 、 例 外 情况 、 或 不 完全 的 数据 对 象 。 


可 视 化 表示 形式 、 或 其 它 表示 形式 
掘 系统 是 交互 的 ， 这 一 点 尤为 重要 。 
图 表 、 交 叉 表 、 移 阵 或 曲线 。 












































能 发 现 数 以 千 计 的 模式 。 对 于 给 定 的 用 户 ， 许 多 模 








式 不 是 有 趣 的 ， 它 们 表示 平凡 知识 或 缺乏 新 颖 性 。 关 于 开发 模式 兴趣 度 的 评估 技术 ， 特 别 是 关 





























于 给 定 用 户 类 ， 基 于 











兴趣 度 度量 ， 指 导 发 现 过 程 和 压缩 搜索 空间 
性 能 问题 ， 这 包括 数据 控 气 算法 的 有 效 性 、 可 规模 性 和 并 行 处 理 ， 
数据 挖 气 算 法 的 有 效 性 和 可 规模 性 ， 为 了 有 效 地 从 数据 库 






































PP 大量 数据 提取 信息 ， 数 据 挖掘 算法 


j 户 的 信赖 或 期 望 ， 评 佑 模式 价值 的 主观 度量 ， 仍 然 存 在 一 些 挑战 。 使 用 
， 是 又 一 个 活跃 的 研究 领域 。 














必须 是 有 效 的 和 可 规模 化 的 。 换 一 名 话说， 对 于 大 型 数据 库 ， 数 据 挖掘 算法 的 运行 时 间 必 须 是 
可 预计 的 和 可 接受 的 。 从 数据 库 角 度 ， 有 效 性 和 可 规模 性 是 数据 挖 据 系 统 实现 的 关键 问题 。 上 





面 讨 论 的 挖掘 技术 和 用 户 交 互 的 大 多 数 问题 ， 也 必须 考虑 有 效 性 和 可 规模 性 。 
并 行 、 分 布 和 增 量 挖掘 算法 : 许多 数据 库 的 大 容量 、 数 据 的 广泛 分 布 和 一 些 数据 挖掘 算法 的 计 
算 复杂 性 是 促使 开发 并 行 和 分 布 式 数据 挖掘 算法 的 
分 可 以 并 行 处 理 ， 然 后 合并 每 部 分 的 结果 。 此 外 ， 有 些 数 据 挖 气 过 程 的 高 花费 导 















































因素 。 这 些 算法 ; 

















各 数据 划分 成 部 分 ， 这 些 部 
了 对 增 量 数 





















































关于 数据 库 类 型 的 多 样 性 问题 : 














关系 的 和 复杂 的 数据 类 型 的 处 理 : 




















据 挖 掘 算法 的 需要 。 增 量 算 法 与 数据 库 更 新 结合 在 一 起 ， 而 不 必 重 计 
渐 增 地 进行 知识 更 新 ， 修 正和 加 强 先前 业已 发 现 的 知识 。 




















挖掘 全 部 数据 。 这 种 算法 











于 关系 数据 库 和 数据 仓库 已 经 广泛 使 用 ， 对 它们 开发 有 效 








的 数据 挖掘 系统 是 重要 的 。 然 而 ， 其 它 数据 库 可 能 包含 复杂 的 数据 对 象 、 超 文本 和 多 媒体 数据 、 


空间 数据 、 时 间 数 据 、 或 事务 数据 。 由 








于 数 





据 类 型 的 多 样 怕 


E 和 数据 挖掘 的 目标 不 同 ， 指 望 一 个 














系统 挖掘 所 有 类 型 的 数据 是 不 现实 的 。 为 挖掘 特定 类 型 的 数据 , 应 当 构 造 特定 的 数据 挖掘 系统 。 
这 样 ， 对 于 不 同类 型 的 数据 ， 我 们 可 能 有 不 同 的 数据 挖掘 系统 。 


昌 ”由 异种 数据 库 和 全 球 信 息 系统 挖掘 信息 : 局 域 和 广 域 (如 Internet) 计算 机 网 络 连接 了 许多 数据 
源 ， 形 成 了 大 的 、 分 布 的 和 蜡 种 的 数据 库 。 从 具有 不 同 数据 语义 的 结构 的 、 半 结构 的 、 和 无 结 
构 的 不 同 数据 源 发 现 知识 ， 对 数据 挖掘 提出 了 巨大 挑战 。 数 据 挖掘 可 以 帮助 发 现 多 个 异种 数据 
库 中 的 数据 规律 ， 这 些 规 律 多 半 难 以 被 简单 的 查询 系统 发 现 ， 并 可 以 改进 异种 数据 库 信 息 交 换 
和 协同 操作 的 性 能 。Web 挖掘 发 现 关 于 Web 连接 、Web 使 用 和 Web 动态 情况 的 有 趣 知识 ， 已 
经 成 为 数据 挖掘 的 一 个 非常 具有 挑战 性 的 领域 。 
以 上 问题 是 数据 挖掘 技术 未 来 发 展 的 的 主要 需求 和 挑战 。 在 近来 的 数据 挖掘 研究 和 开发 中 ， 一 
些 挑战 业已 受到 关注 ， 并 已 成 为 必 备 的 ， 而 另 一 些 仍 处 于 研究 阶段 。 然 而 ， 这 些 问题 将 继续 刺激 进 
一 步 的 研究 和 改进 。 涉 及 数据 挖掘 应 用 、 保 密 性 和 社会 影响 的 问题 将 在 本 书 的 最 后 一 章 ， 第 10 半 


讨论 。 
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1.8 总 结 















































@ ”数据 库 技术 已 经 从 原始 的 数据 处 理 ， 发 展 到 开发 具有 查询 和 事务 处 理 能 力 的 数据 库 管 理 系 统 。 
进一步 的 发 展 导致 越 来 越 需要 有 效 的 数据 分 析 和 数据 理解 工具 。 这 种 需求 是 各 种 应 用 收集 的 数 
据 爆炸 性 增长 的 必然 结果 ;这些 应 用 包括 商务 和 管理 、 行 政 管理 、 科 学 和 工程 、 环 境 控制 。 


昌 ”数据 挖掘 是 从 大 量 数 据 中 发 现 有 趣 模式 ， 这 些 数据 可 以 存放 在 数据 库 、 数 据 仓库 或 其 它 信息 存 
储 中 。 这 是 一 个 年 青 的 跨 学 科 领 域 ， 源 于 诸如 数据 库 系 统 、 数 据 仓 库 、 统 计 、 机 器 学 习 、 数 据 
可 视频 化 、 信 息 提 取 和 高 性 能 计算 。 其 它 有 贡献 的 领域 包括 神经 网 络 、 模 式 识别 、 空 间 数据 分 
析 、 图 象 数据 库 、 信 和 号 处 理 和 一 些 应 用 领域 ， 包 括 商务 、 经 济 和 生物 信息 学 。 

昌 ”知识 发 现 过 程 包括 数据 清理 、 数 据 集成 、 数 据 变换 、 数 据 挖 掘 、 模 式 评 估 和 知识 表示 。 

昌 数据 模式 可 以 从 不 同类 型 的 数据 库 挖 掘 ， 如 关系 数据 库 ， 数 据 仓库 ， 事 务 的 、 对 象 -关系 的 和 面 
向 对 象 的 数据 库 。 有 趣 的 数据 模式 也 可 以 从 其 它 类 型 的 信息 存储 中 提取 ， 包 括 空 间 的 、 时 间 相 
关 的 、 文 本 的 、 多 媒体 的 和 遗产 数据 库 ， 以 及 万 维 网 。 


四 ”数据 仓库 是 一 种 数据 的 长 期 存储 ， 这 些 数据 来 自 多 数据 源 ， 是 有 组 织 的 ， 以 便 支持 管理 决策 。 
这 些 数据 在 一 种 一 致 的 模式 下 存放 ， 并 且 通 常 是 汇总 的 。 数 据 仓库 提供 一 些 数 据 分 析 能 力 ， 称 
作 OLAP 〈 联 机 分 析 处 理 ) 。 

四 ”数据 挖 抉 功能 包括 发 现 概念 /类 描述 、 关 联 、 分 类 、 预 测 、 聚 类 、 趋 势 分 析 、 偏 差分 析 和 类 似 性 
分 析 。 特 征 和 区 分 是 数据 汇总 的 形式 。 

四 ”模式 提供 知识 ， 如 果 它 易于 被 人 理解 、 在 某 种 程度 上 对 于 测试 数据 是 有 效 的 、 潜 在 有 用 的 、 新 

颖 的 ， 或 者 它 验证 了 用 户 关注 的 某 种 预感 。 模 式 兴趣 度 度量 ， 无 论 是 客观 的 还 是 主观 的 ， 都 可 
以 用 来 指导 发 现 过 程 。 

昌 ”数据 挖掘 系统 可 以 根据 所 挖掘 的 数据 库 类 型 、 所 挖掘 的 知识 类 型 、 或 所 使 用 的 技术 加 以 分 类 。 

四 大 型 数据 库 中 有 效 的 数据 挖掘 对 于 研究 者 和 开发 者 提出 了 大 量 需 求 和 巨大 的 挑战 。 问 题 涉 及 数 
据 挖 气 技 术 、 用 户 交 互 、 性 能 和 可 规模 性 、 以 及 大 量 不 同 数据 类 型 的 处 理 。 其 它 问题 包括 数据 
挖掘 的 应 用 开发 和 它们 的 社会 影响 。 























































































































































































































































































































































































































习题 














1.1 ”什么 是 数据 挖 抉 ? 在 你 的 回答 中 ， 强 调 以 下 问题 : 

















(a) 它 是 又 一 个 骗局 吗 ? 


(b) 它 是 一 种 从 数据 库 、 














(c) 解释 数据 库 技 术 发 展 如 何 导 致 数据 挖掘。 
(d) 当 把 数据 挖掘 看 作 知 识 发 现 过 程 时 ， 描 述 数据 挖掘 所 涉及 的 步 又 


1.2 ”给 出 一 个 例子 , 其 中 数据 挖掘 对 于 商务 的 成 功 是 至 关 重 要 的 。 该 商务 需要 什么 数据 挖掘 功能 ? 


























它们 能 够 由 数据 查询 处 理 或 简单 的 统计 分 析 来 实现 吗 ? 


















































统计 和 机 器 学 习 发 展 的 技术 的 简单 转换 吗 ? 
































1.3 ”假定 你 是 Big- University 的 软件 工程 师 , 任务 是 设计 一 


该 数据 库 包 括 如 下 信息 





以 及 他 们 的 GPA。 描 


述 你 要 选取 的 结构 。 























1.4 数据 仓库 和 数据 库 有 

















可 不 同 ? 它们 有 哪些 相似 之 处 ? 








1.5 简 述 以 下 高 级 数据 库 系 统 和 应 用 : 面向 对 象 数据 库 、 





万 维 网 。 


1.6 定义 人 
活 中 的 数据 库 ， 给 出 每 种 数据 控 据 功 人 的 例子 。 























: 特征 、 区 分 、 关 联 、 分 类 、 





1.7 区 分 和 分 类 的 差别 是 什么 ? 特征 和 聚 类 的 差别 是 什么 ? 





有 何 相 似 之 处 ? 














1.8 根据 你 的 观察 ， 描 述 
要 一 种 不 同 于 本 章 列 举 





























个 可 能 的 知识 类 型 ， 它 需要 由 


空间 数据 库 、 文本 数据 库 、 多 媒体 数据 库 、 





的 数据 挖掘 技术 吗 ? 


























个 数据 挖掘 系统 , 分 析 学 校 课程 数据 库 。 




















: 每 个 学 生 的 姓名 、 地 址 和 状态 〈 例 如 ， 本 科 生 或 研究 生 ) 、 所 修 课程 ， 
该 结构 的 每 个 成 分 的 作用 是 什么 ? 














预测 、 聚 类 、 演 变 分 析 。 使 用 你 熟悉 的 生 


分 类 和 预测 呢 ? 对 于 每 一 对 任务 , 它们 























数据 挖掘 方法 发 现 ， 但 本 章 未 列 出 。 它 需 





1.9 ”描述 关于 数据 挖掘 技术 和 用 户 交 互 问题 的 三 个 数据 挖掘 挑战 。 




















1.10 描述 关于 性 能 问题 的 7 





文献 注释 





丙 个 数据 挖掘 挑战 。 














Piatetsky-Shapiro 和 Frawley 编辑 的 书 Knowledge Discovery in Databases [PSF91] 是 数据 库 中 知识 
Fayyad，Piatetsky-Shapiro，Smyth 和 Uthurusamy 编辑 的 书 Advance in 








发 现 早期 研究 论文 的 汇集 。 


0 Discovery and Data Mining[FPS+96] 是 一 本 知识 发 现 和 数据 挖掘 研究 成 果 的 很 好 的 汇集 。 





























它 数据 挖掘 书籍 包括 Weiss 和 Indurkhya 的 Predictive Data Mining [WI98]，Michalski，Brakto 和 
Kibalt 的 Machine Learning and Data Mining: Methods and Applications [MBK98], Westphal 和 Blaxton 
的 Data Mining Solutions: Methoda and Tools for Solving Real-World Problems [WB98], Berry 和 Linoff 
的 The Art and Science of Customer Relationship Management [BL99]，Berson, Smith 和 Thearling 的 
Building Data Mining Applications for CRM [BST99], 和 Groth 的 Data Mining: Building Competitive 





Advantadge [Gro99]。 还 有 一 些 

















包含 知识 发 现 特定 方面 应 





用 的 论文 ， 如 Ziarko 编辑 的 Rough Sets, 




















Fuzzy Sets and Knowledge Discovery [Zia94]， 以 及 一 些 数据 挖掘 指南 手册 ， 如 ACM 出 版 社 出 版 的 
Tutorial Notes of the 1999 International Conference on Knowledge Discovery and Data Mining 


(KDD’99) 。 











KDD Nautaes 是 一 个 包含 知识 发 现 和 数据 挖掘 有 关 信 






































连同 描述 主题 行 (和 URL) 用 电子 邮件 发 往 editor@kdnuggets.com。 关 于 订阅 的 信息 可 以 在 














http://www.kdnuggets.com/news/subscribe.html 找到 。 自 


Piatetsky_Shapiro 调整 。 位 了 
包含 大 量 关 于 KDD 的 信息 
年 开始 了 它 的 第 一 届 次 知识 发 现 








数据 挖掘 界 于 1995 旨 





是 由 1989 至 1994 年 举行 的 四 次 数据 库 中 知识 发 现 国际 









































娠 的 定期 的 、 免 费 的 电子 通讯 。 投 稿 可 以 























1991 年 以 来 ，KDD Nuggets 已 被 


Fhttp://www.kdnuggets.com/ 的 Internet 的 站 点 Knowledge Discovery Mine 












































来 的 。 数 据 挖掘 研究 界 了 











与 数据 挖掘 国际 学 术 会 议 [FU96]。 该 会 议 





讨 会 [PS89，PS91a，FU93，FU94] 发 展 起 


1998 年 建立 起 一 个 新 的 学 术 组 织 ACM-SIGKDD，ACM 下 的 数据 库 中 知 











识 发 现 专业 组 。1999 年 ACM-SIGKDD 组 织 了 第 五 届 知 识 发 现 与 数据 挖掘 国际 学 术 会 议 C(KDD”99 ) 。 
专题 杂志 Data Mining and Knowledge Discovery 自 1997 年 起 由 Kluwers 出 版 社 出 版 。ACM-SIGKDPD 
还 出 版 一 种 季刊 电子 通讯 SIGKDD Explorations，SIGKDD 成 员 可 以 使 用 。 还 有 一 些 其 它 国际 或 地 区 
性 数据 挖掘 会 议 ， 如 ， 知 识 发 现 与 数据 挖掘 太平 洋 亚 洲 会 议 (PAKDD) ， 数 据 库 中 知识 发 现 原理 与 
实践 欧洲 会 议 (PKDD) ， 和 数据 仓库 与 知识 发 现 国 际会 议 (DaWaK) 。 

数据 挖掘 研究 还 在 出 版 的 书籍 、 会 议 、 以 及 数据 库 、 统 计 、 机 器 学 习 和 数据 可 视 化 杂志 上 发 表 。 
源 于 这 些 的 文献 列举 如 下 。 

数据 库 系统 的 流行 教科 书包 括 Ullamn 的 Principles of Database and Knowledege-Base Systems, 
Vol. 1 [Ul188]，Elmasri 和 Navathe 的 Fundamentals of Database Systems,2nd ed.[EN94], Silberschatz, 
Korth 和 Sudarshan 的 Database System Concepts [SK97]，Ullman 和 Widom 的 A First Course in 
Database Systems [UW97]， 和 Ramakrishnan 和 Gehrke 的 Database Management Systems, 3rd ed. 
[RG00]。 数 据 库 系统 的 文章 汇集 见 Stonebraker 和 Hellerstein 编辑 的 Readings in Database Systems 
[SH98]。 关于 数据 库 系 统 的 成 就 与 研究 挑战 的 回顾 与 讨论 在 Stonebraker, Agrawal, Dayal 等 [SAD+93] 
和 Silberschatz, Stonebraker 和 Ullman [SSU96] 中 找到 。 

在 过 去 的 几 年 中 , 许多 关于 数据 仓库 技术 、 系统 和 应 用 的 书籍 已 经 出 版 。 如, Kimball 的 The Data 
Warehouse Toolkit [Kim96], Inmon 的 Building the Data Warehouse [Inm96]，Thomsen 的 OLAP 
Solutions: Building Mulyidimensional Information Systems [Tho97]。Chaudhuri 和 Dayal [CD97] 给 出 了 
数据 仓库 技术 的 全 面 回 顾 。 

涉及 数据 挖 据 和 数据 仓库 的 研究 结果 已 在 许多 数据 库 国 际 学 术 会 议论 文集 发 表 ， 包 括 

ACM-SIGMOD 数据 管理 国际 会 议 (SIGMOD ) ， 超 大 型 数据 库 国际 会 议 (VLDB ) ， 
ACM-SIGMOD-SIGART 数据 库 原理 研讨 会 PODS)〉 ， 数 据 工 程 国际 会 议 (ICDE) ， 扩 展 数据 库 
技术 国际 会 议 (EDBT) ， 数 据 库 理论 国际 会 议 〈ICDT) ， 信 息 与 知识 管理 国际 会 议 (CIKM) ， 
数据 库 与 专家 系统 应 用 国际 会 议 (DEXA) ， 和 数据 库 系统 高 级 应 用 国际 会 议 (DASFAA) 。 数 据 
挖掘 研究 也 发 表 在 主要 数据 库 杂 志 上 ， 包 括 IEEE 知识 与 数据 工程 汇 刊 CTKDE) ，ACM 数据 库 系 
统 汇 刊 TODS) ，ACM 杂志 (JACM) ， 信 息 系 统 ，VLDB 杂志 ， 数 据 与 知识 工程 ， 和 智能 信息 
系统 国际 杂志 (JIS) 。 
有 许多 教材 涵盖 了 统计 分 析 的 不 同 主题 ， 如 ，Devore 的 Probability and Statistics for Engineering 
and Science, 4th ed. [Dev95], Neter, Kutner, Nachtsheim 和 Wasserman 的 Applied Linear Statistical 
Models, 4th ed [NKNW96], Dobson 的 An Introduction to Generalized Linear models [Dob90], Shumway 
的 Applied Statistical Time Series Analysis 3" ed. [Shu88], 和 Johnson 和 Wichern 的 Applied Multivariate 
Statistical Analysis, 3rd ed.[JW92] 

统计 研究 发 表 在 一 些 主要 的 统计 会 议 上 ， 包 括 联合 统计 会 议 ， 旺 家 统计 会 国际 会 议 ， 界 面 研 讨 
会 :计算 科学 与 统计 。 其 它 刊 物 源 包括 皇家 统计 会 杂志 ,统计 年 鉴 ,美国 统计 学 会 杂志 ,Technometrics， 
和 Biometrika。 

机 器 学 习 方面 的 教材 和 书籍 包括 Michalski 等 编辑 的 Machine Learning, An Artifical Intelligence 
Approach, Vols. 1-4 [MCM83, MCM86, KM90, MT94], Quinlan 的 C4.5: Programs for Machine Learning 
[Qui93]，Langley 的 Elements of Machine Learning [Lan96]， 和 Mitchell 的 Machine Learning [M97]。 
Weiss 和 Kulikowski 的 书 Cmputer Systemthat Learn: Classification and Prediction Methods from 
Statistics, Neural Nets, Machine Learning, and Expert Systems [WK91] 比 较 了 若干 不 同 领 域 的 分 类 和 比 
较 方 法 。 一 本 编辑 的 机 器 学 习 论文 汇集 见 Shavlik 和 Dietterich 的 Readingd in Machine Learning 
[SD90]。 

机 器 学 习 研 究 发 表 在 一 些 大 型 机 器 学 习 和 人 工 智能 会 议论 文集 上 ， 包 括 机 器 学 习 国 际会 议 

CML) ，ACM 计算 学 习 理 论 会 议 〈COLT) ， 人 工 智 能 国际 联合 会 议 〈UJCAL) ， 和 美国 人 工 智 能 
学 会 会 议 (AAAI) 。 其 它 出 版 源 包括 主要 的 机 器 学 习 、 人 工 智 能 和 知识 系统 杂志 ， 其 中 ， 有 些 上 
面 已 经 提 到 。 其 余 的 包括 机 器 学 习 (ML) ， 人 工 智能 杂志 (AI) ， 认 知 科 学 。 从 统计 模式 识别 角 
度 的 分 类 回顾 可 以 在 Duda 和 Hart [DH73] 中 找到 。 

数据 可 视 化 技术 的 先驱 者 工作 在 Tufte 的 The Visual Display of Quantitative Information [T83] 和 
Envisioning Information [Tuf90], 以 及 Bertin 的 Graphics and Graphic Information Processing [Ber81] 
中 介绍 。Keim 的 Visual Techniques for Exploring Databases [Kei97] 给 出 了 数据 挖 据 可 视 化 的 指南 。 
可 视 化 主要 的 会 议和 研讨 会 包括 ACM 计算 机 系统 中 人 的 因素 〈CHI) ， 可 视 化 ， 以 及 信息 可 视 化 
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国际 研讨 会 。 可 视 化 研究 也 发 表 在 可 视 化 和 计算 机 





计算 机 图 





形 学 及 其 应 月 
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图 形 学 汇 刊 ， 计 算 和 





图 形 统计 杂志 ， 以 及 IEEE 





二 章 数据 仓库 和 数据 挖掘 的 OLAP 技术 

















构造 数据 仓库 涉及 数据 ; 
































一 步 讲 ， 许 多 其 它 数 据 挖 抉 功能 ， 
多 个 抽象 层 上 的 交互 知识 挖掘 。 


YZ 人 
ms 汝 4 


















































库 技术 。 对 于 理解 数据 挖掘 技术 ， 这 
本 章 ， 
与 数据 挖掘 的 联系 。 














2.1 什么 是 数据 仓库 ? 







































































数据 仓库 为 商务 运作 提供 结构 与 工 
在 当今 这 个 充满 竞争 、 











机 构 已 经 发 现 ， 
几 年 中 ， 许 多 公司 已 花费 数 百 
剧 ， 数 据 仓库 成 了 必 备 的 最 新 营销 武 

“那么 ”， 你 可 能 会 充满 神秘 地 












































数据 仓库 系统 允许 将 各 种 应 用 系统 集 
理 提供 文 持 。 




















按照 WH Inmon， 一 位 数据 仓库 系统 构造 方面 的 领头 建筑 师 的 说 法 ， 
主题 的 、 集 成 的 、 时 变 的 、 非 易 失 的 数据 集合 ， 











] 的 基本 概念 、 一 般 结构 和 主要 实现 技术 ， 以 及 它们 


k， 以 便 系统 地 组 织 、 到 








快速 发 展 的 
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理 和 数据 集成 ， 可 以 看 作 数据 挖掘 的 一 个 重要 预 处 理 步 骤 。 此 外 ， 数 
据 仓库 提供 联机 分 析 处 理 (OLAP) 工 具 ， 用 于 各 种 粒度 的 多 维 数据 分 析 ， 有 利于 有 效 的 数据 挖掘 。 进 
1 分 类 、 了 预测、 关联、 聚集， 都 可 以 与 OLAP 操作 集成 ， 
因此 ， 数 据 仓库 已 经 成 为 数据 分 析 和 联机 数据 分 析 处 理 日 趋 重 要 的 
并 将 为 数据 挖掘 提供 有 效 的 平台 。 在 系统 地 介绍 数据 挖掘 技术 之 前 ， 我 们 概括 地 介绍 数据 仓 
种 概述 是 必要 的 。 

你 将 学 习 数据 仓库 和 OLAP 技术 使 














以 加 强 


























LE 解 和 使 用 数据 进行 决策 。 大 量 组 织 
疆界 ， 数 据 仓库 是 一 个 有 价值 的 工具 。 在 过 去 的 
万 美元 ， 建 立 企业 范围 的 数据 仓库 。 许 多 人 感到 ， 随 着 工业 竞争 的 加 
通过 更 多 地 了 解 客 户 需求 而 保住 客户 的 途径 。 














间 ，“ 到 底 什么 是 数据 仓库 ? ”数据 仓库 已 被 多 种 方式 定义 ， 
使 得 很 难 严格 地 定义 它 。 宽 松 地 讲 ， 数 据 仓库 是 一 个 数据 库 ， 它 与 组 织 机 构 的 操作 数据 库 分 别 维护 。 
成 在 一 起 ， 为 统一 的 历史 数据 分 析 提供 坚实 的 平台 ， 对 信息 处 











文 持 管理 












































“数据 仓库 是 一 个 面向 
决策 制定 ”[Inm96] 。 这 个 简短 、 全 面 的 





定义 指出 了 数据 仓库 的 主要 特征 。 四 个 关键 词 ， 面 向 主题 的 、 集 成 的 、 时 变 的 、 非 易 失 的 ， 将 数据 





仓库 与 其 它 数 据 存 储 系统 如， 关系 数据 库 系统 、 事 务 处 型 








一 步 看 看 这 些 关键 特征 。 
到 面向 主题 的 ; 数据 仓库 围绕 一 些 























决策 无 用 的 数据 ， 提 供 特定 主题 




















@ ”集成 的 : 通常 ， 构 造 数据 仓库 是 将 多 个 异种 数据 源 ， 如 关系 数据 库 、 
理 和 数据 集成 技术 ， 忆 








记录 ， 集 成 在 一 起 。 使 用 数据 清 
致 性 。 
四 ”时 变 的 ， 数据 存储 从 历史 的 1 
隐 式 或 显 式 地 包含 时 间 元 素 。 















































@ 。 非 易 失 的 : 数据 仓库 总 是 物理 地 分 离 存放 数据 ;这 些 数据 源 于 操作 环境 下 的 应 用 数据 。! 











主题 ， 如 顾客 、 供 应 商 、 产 品 和 销售 组 
者 的 数据 建 模 与 分 析 ， 而 不 是 构造 组 织 机 构 的 日 常 操作 和 事务 处 理 。 因 此 ， 数 据 仓 库 排除 对 于 











的 简明 视图 。 











9 度 例如 ， 过 去 5-10 年 ) 提供 信息 。 





系统 、 和 文件 系统 ) 相 










































































区 别 。 让 我 们 进 


织 。 数 据 仓 库 关 注 决策 











一 般 文 件 和 联机 事务 处 理 
保命 名 约定 、 编 码 结构 、 属 性 度量 的 一 














种 分 离 ， 数 据 仓 库 不 需要 事务 处 理 、 恢 复 和 并 行 控 制 机 制 。 通 常 ， 它 只 需要 两 利 











据 的 初始 化 装 入 和 数据 访问 。 














数据 仓库 中 的 关键 结构 ， 








于 这 
数据 访问 : 数 

















nt 
放 企 业 决 策 所 需 信息 。 数 据 仓库 














“好 ”， 你 现在 问 ， 

根据 上 面 的 讨论 ， 我 介 
数据 集成 、 数 据 清 理 、 和 数据 统一 。 利 
(例如 ， 经 理 、 分 析 人 员 和 主管 ) 外 
据 仓 库 中 的 信息 作出 准确 的 决策 。 有 些 
而 用 术语 “仓库 DBMS” 表 示 管 理 和 使 

“组 织 机 构 如 何 使 用 数据 仓库 中 
包括 (1) 增加 顾客 关注 ， 包 括 
习惯 ) ; (2) 根据 季度 、 年 、 地 
(3) 分 析 运 作 和 查找 利润 源 ;， (4) 管理 


“那么 ， 人 1 


太公 

































































































































































多 个 异种 的 、 自 治 的 、 





分 布 的 数据 源 维 




















一 种 语义 上 一 致 的 数据 存储 ， 它 充当 
常常 被 看 作 一 种 体系 结构 ， 
起 而 构造 ， 支 持 结构 化 和 启发 式 查询 、 分 析 报 告 和 诀 策 于 


护 大 型 数据 库 。 











通过 将 寞 利 





| 定 。 


有 





是 建立 数据 仓库 (data warehousing)? ” 
] 把 建立 数据 仓 居 
用 数据 
E 够 使 用 数据 仓库 ， 快 捷 、 方 便 ] 
作者 使 用 术语 “建立 数据 仓 
数据 仓库 。 我 们 ; 
的 信息 ? ”许多 组 
分 析 顾 客 购买 模式 (如 ， 
区 的 营销 情况 比较 ， 
顾客 关系 、 进 行 环境 
从 寞 种 数据 库 集成 的 角度 看 ， 数据 仓库 也 是 十 分 有 用 的 。 











片 


E 看 作 构造 和 使 


仓库 常常 需要 


数据 仓库 的 过 程 。 
些 决策 支持 技术 。 这 使 















































和 不 区 分 二 者 。 
机 构 正 在 使 用 这 些 信 
喜爱 买 什么 、 

新 配置 产品 和 
周 整 、 


许多 组 织 收集 了 形 形 1 





刀口 


7\ 


息 支 持 商 











A 
三 
户 ) 


车 














里 投资 ， 























数据 仓库 的 构 


地 得 到 数据 的 总 体 视 网 ， 
库 ” 表 示 构 造 数据 仓库 的 过 程 


购买 时 间 、 预算 周期 、 
调整 生产 策略 
管理 合股 人 的 资产 开 
人 名 





决策 支持 数据 模型 的 物理 实现 ， 并 存 
数据 源 中 的 数据 集成 在 一 





止 .二 E 
造 需要 


得 “知识 工人 ” 
根据 数 














Cy 





务 决策 活动 ， 
消费 


各 ; 


商 











销 。 
, 色 数 据 ， 并 由 















































集成 这 些 数据 ， 并 提供 简便 、 


























非常 希望 的 ， 并 且 也 是 一 利 
对 于 异种 数据 库 f 
个 集成 程序 或 仲裁 程序 ) 


挑战 。 数 据 库 














的 集成 ， 传 统 的 数据 库 做 法 是 : 在 多 个 寞 种 


有 效 的 访问 是 





工业 界 和 大 





究 界 都 正 朝 着 实现 这 一 月 

















标 剖 尽 全 力 。 




















数据 库 上 ， 建 立 一 个 包装 程序 和 一 
。 这 方面 的 例子 包括 IBM 的 数据 连接 程序 (Data Joiner) 和 Informix 








的 数据 刀 (DataBlade) 。 
换 成 相应 异种 站 点 上 的 查询 。 然 后 ， 将 这 
结果 被 集成 为 全 局 
上 的 处 弄 
很 大 。 












































当 一 个 查询 提交 客户 站 点 ， 首 
些 


回答 。 这 种 查询 驱动 的 方法 需要 复杂 的 信 
EE 竞争 资源 。 这 种 方法 是 低 效 的 ， 并 且 对 于 频繁 的 查 i 





1 
对 于 异 和 





HE 二 


库 中 ， 供 直接 查询 和 分 析 。 与 联机 二 





























数据 库 集成 的 传统 方法 ， 数 据 仓 库 提 化 
动 的 方法 ， 而 不 是 查询 驱动 的 方法 。 这 种 方法 将 来 自 多 个 异 利 
有 务 处 型 








先 使 
查询 映射 和 发 送 至 




















已 


lds i 




















由 不 同 站 点 返回 


] 元 数据 字典 对 查询 进行 转换 ， 将 它 转 





的 





日 


县 过 滤 和 集成 处 理 

















朋 


| 





与 局 部 数据 源 











向 ， 特 别 是 需要 于 











t 了 一 个 有 趣 的 替代 方案 


Fh 源 的 

















二 


已 























二 


I 


合计 为 外 威风 守 人 下 汪 库 友 六 叶 玉 ] 





性 和 有 











预 处 理 、 集 成 、 





为 数据 被 拷贝 、 











新 组 纪 织 | 一 
理 。 此 外 ， 数 据 仓 库存 储 并 集成 历史 信息 
非常 流行 。 











2.2.1 操作 数据 库 系 统 与 数据 仓库 的 区 别 























联机 操作 数据 库 系 统 的 主 
(COLTP) 系统 。 它 们 涵 











个 语义 一 致 的 数据 存储 中 。 在 数据 仓库 中 进行 的 查 


1 于 大 多 数 人 都 熟悉 商品 关系 数据 库 系统 , 将 数据 仓库 与 之 比较 ， 
要 任务 是 执行 联机 村 
盖 了 一 个 组 织 的 大 部 分 
记 帐 等 。 男 一 方面 ， 数 据 仓库 系统 在 数据 分 析 和 决策 方面 为 用 户 或 “知识 工人 ”提供 


集 操作 的 查 i 


。 数 据 仓 
娠 预先 集成 ， 并 存储 在 数据 仓 
EE 数据库 不 同 ， 数 据 仓库 不 包含 最 近 的 信息 。 


能 ， 攻 主 释 、 汇总 ， 


有， 开销 














度 


竹中 


让 





| 更 新 驱 














然而 ， 数 据 








日 


并 重 





























询 处 理 并 
查询 。 这 样 ， 





不 影响 











， 文 持 复 杂 的 多 维 


























就 容易 型 
EE 务 和 查询 处 理 。 这 种 系统 称 为 
如 购买 、 库 存 、 制 造 、 银 行 、 























常 操作 ， 





E 局 部 源 上 进行 站 
建立 数据 仓库 在 工业 界 已 


E 解 什么 





的 处 





是 数据 仓库 。 
联机 事务 处 理 
[ 资 、 注 册 、 
























































统 可 以 用 不 同 的 格式 组 织 和 提供 
处 理 (0LAP〉 系 统 。 


0LTP 和 0LAP 的 主要 区 别 概 述 如 


用 户 和 系统 的 面向 性 : 
查询 处 理 。0LAP 是 面向 市 场 的 ， 月 


数据 内 容 : 0OLTP 系统 管理 当前 数据 。 





数据 ， 以 便 














有 





























OLTP 是 面向 顾客 
日 于 知 





i 满足 不 同月 





日 户 的 形 形 ; 

















的 ， 用 于 办 寻 客户 、 和 信息 


有 员 、 
E 


识 工 人 〔 包 括 经 理 、 
通常 ， 这 种 数据 太 琐 碎 ， 难 以 方便 地 月 























服务 。 这 种 系 





色色 需求 。 这 种 系统 称 为 联机 分 析 


技术 专业 人 员 的 事务 和 
主管 、 和 分 析 人 员 ) 的 数据 分 析 。 


日 于 决策 。0LAP 系 





























统管 理 大 量 历史 数据 ， 提 供 汇 总 和 聚 及 











二 机 人 制 ， 并 在 不 同 的 粒度 级 别 上 存储 和 管理 








信息 。 
































点 使 得 数据 容易 用 于 见 多 识 广 的 决策 。 











统 通常 采 用 星 形 或 雪 


视图 : 0LTP 系统 主要 关 社 
据 。 相 比 之 下 ， 由 于 




















数据 库 设计 ， 通常，0LTP 系统 采用 实体 -联系 ER》 模型 和 面向 应 用 的 数据 库 设 i 
花 模型 (2. 2. 2 小 节 讨论 
一 个 企业 或 


FF 组织 的 变化 ， OLAP 系统 常 





) 和 面向 主题 的 数据 库 设 计 。 














这 些 特 





十 。 而 OLAP 系 


门 内 部 的 当前 数据 ， 而 不 涉及 历史 数据 或 不 同 组 织 的 数 
常 跨越 数据 库 横 式 的 多 个 版 本 。OLAP 系统 也 处 

















理 来 自 不 同 组 织 的 信息 

















， 由 多 个 数据 存储 身 
































时 成 的 信息 















































于 数据 量 巨大 ，0LAP 数据 也 存放 在 多 



















































































































































































































































































































































































个 存储 介质 上 。 

四 ”访问 模式 : 0LTP 系统 的 访问 主要 由 短 的 、 原 子 事务 组 成 。 这 种 系统 需要 并 行 控制 和 恢复 机 制 。 
然而 ， 对 OLAP 系统 的 访问 大 部 分 是 只 读 操 作 “〈 由 于 大 部 分 数据 仓库 存放 历史 数据 ， 而 不 是 当 
前 数据 ) ， 尽 管 许 多 可 能 是 复杂 的 查询 。 

OLTP 和 OLAP 的 其 它 区 别 包 括 数据 库 大 小 、 操 作 的 频繁 程度 、 性 能 度量 等 。 这 些 都 概括 在 表 

2.1 中 。 

表 2.1: ”OLTP 系统 和 OLAP 系统 的 比较 

特性 OLTP OLAP 

特征 操作 处 理 祝 息 处 理 

面向 事务 分 析 

用 户 办 事 员 、DBA、 数 据 库 专 业 人 员 知识 工人 《如 经 理 、 主 管 、 分 析 员 ) 
功能 常 操作 长 期 信息 需求 ， 决 策 支 持 
DB 设计 基于 E-R， 面 向 应 用 星 形 /雪花 ， 面 向 主题 
数据 当前 的 ; 确保 最 新 历史 的 ; 路 时 间 维 护 
汇总 原始 的 ， 高 度 详细 汇总 的 ， 统 一 的 

视图 详细 ， 一 般 关系 汇总 的 ， 多 维 的 

工作 单位 后 的 、 简 单 事务 复杂 查询 

存 读 / 写 大 多 为 读 

关注 数据 进入 这 息 输 出 

虹 作 主 关 键 字 上 索引 / 散 列 大 量 扫描 

访问 记录 数量 数 十 个 数 百 万 

户 数 数 干 数 百 

DB 规模 100MB 到 GB 100GB 到 TB 

优先 高 性 能 ， 高 可 用 性 高 灵活 性 ， 端 点 用 户 自治 
度量 事务 否 叶 量 查询 吞吐 量 ， 响 应 时 间 

2.1.2 但 是 ， 为 什么 需要 一 个 分 离 的 数据 仓库 
“既然 操作 数据 库存 放 了 大 量 数据 ”， 你 注意 到 ，“ 为 什么 不 直接 在 这 种 数据 库 上 进行 联机 分 

析 处 理 ， 而 是 另外 花费 时 间 和 资源 去 构造 一 个 分 离 的 数据 仓库 ? ”分 离 的 主要 原因 是 提高 两 个 系统 


的 性 能 。 
和 优化 


可 能 需要 





[2 


将 并 行 探 人 
否 叶 量 旱 。 





最 后 ， 数 据 仓库 与 操作 数据 库 分 离 
策 支持 需要 历史 数据 ， 而 操作 数据 库 一 般 不 维护 历史 数据 。 在 这 种 
， 但 对 于 决策 ， 和 常常 


管 很 丰富 
和 汇 
事务 ) ， 
数据 ， 因 














总 ) ， 产生 高 质量 











章 装 的 ”查询 。 
特殊 的 数据 组 


织 、 



































的 、 纯 








存 了 
可 能 会 大 大 降低 操作 任务 的 性 和 

此 外 ， 操 作 数 据 库 支 持 多 事务 的 
致 性 和 事务 的 强健 性 。 通 常 ，OLAP 查 
出 和 恢复 机 制 用 于 这 种 OLAP 操作 ， 就 会 

















已 
Co 
































视图 的 实现 方法 。 


E。 操 作 数 据 库 是 为 已 知 的 任务 和 负载 设计 的 ， 如 使 用 主 关 键 字 索引 和 散 列 
es 方面 ， 数 据 仓库 的 查询 ; 
了 方法 和 基于 多 维 











， 检 索 特 定 的 记录 ， 


通常 是 复杂 的 ， 涉 及 大 量 数据 在 汇总 级 的 计算 ， 
在 操作 数据 库 上 处 理 OLAP 查 








询 芝 














并 行 处 








询 只 需要 对 数据 记 


ce 需要 加 锁 和 日 志 等 入 二 于 7 
录 进 行 只 读 访 问 ， 











并 行 控制 和 恢复 机 伟 








1， 以 确保 


了 从 




















1 





总 和 詹 。 如 果 














昌 
向 十 























净 的 和 集成 的 数据 。 相 比 之 下 ,操作 数据 库 只 











这 些 数据 在 进行 分 相 


此 需要 维护 分 离 的 数据 库 。 
> 支持 0LAP 查询 。 随 着 这 一 趋势 




















危害 3 


1 于 这 两 种 系统 中 数据 的 


行事 务 的 i 






































之 前 需要 统 








于 两 个 系统 提供 
然而 ， 许 多 关系 数据 库 管理 
的 继续 ，OLTP 和 OLAP 系统 之 间 的 分 离 可 望 江 





系统 卖 


以 进行 汇 
运行 ， 从 而 大 大 降低 OLTP 系统 的 


和 站 








结构 、 内 容 和 用 法 都 不 相同 。 决 
情况 下 ， 操 作 数 据 库 中 的 数据 尽 
还 是 远 远 不 够 的 。 决 策 支 持 需 要 将 来 自 异 种 源 的 数据 统一 (如 ， 育 集 
4 维护 详细 











的 原始 数据 (如 

















很 不 相同 的 功能 ， 
始 优化 这 种 系统 ， 使 
省 失 。 


主 正 开 








需要 不 同类 型 的 





2.2 多 维 数 据 模 型 


数据 仓库 和 OLAP 工具 基于 多 维 数据 模型 。 该 模型 将 数据 看 作 数 据 方形 式 。 
E (1-D) 数据 建 模 。 你 还 将 学 习 概念 分 层 


对 7 冤 





方 如 何 
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多 个 抽象 











上 进行 交互 式 挖掘 。 











2.2.1 由 表 和 电子 数据 表 到 数据 方 


“什么 是 数据 方 ? ”数据 方 允 许 以 多 维 
维 是 透视 或 关于 一 个 组 织 想 要 记录 的 实体 。 例 如 ，AllElectronics 可 能 
仓库 sales， 记 录 商 店 的 销售 ， 涉 及 维 time，jtem，pbranch， 和 1ocation。 这 些 维 使 得 商 
商品 的 分 店 和 地 点 。 每 一 个 维 都 有 
的 维 表 可 以 包含 属性 item_name，pbranch， 和 type。 维 表 可 以 1 
或 者 根据 数据 分 布 自动 产生 和 调整 。 
数据 模型 围绕 中 
为 我 们 想 根据 它们 分 析 维 之 间 的 关系 。 例 如 ， 数 据 仓 库 sales 的 事实 


一 般 地 ， 





位 
号 

















的 
述 维 。 


录 商 品 的 月 销售 ， 销 
J 
妙 

家 设 定 ， 

通常 ， 多 维 












































包括 ao7yars so1a units sold 和 amount puadseted。 事 实 表 包括 事实 的 名 利 
表 的 关键 字 。 当 我 们 稍 后 考察 多 维 
尽管 我 们 经 常 把 数据 方 看 作 3-D 几何 结构 ， 在 数据 仓库 中 ， 
数据 模型 ， 让 我 们 由 考察 2-D 数据 方 
表 。 特 殊 地 ， 我 们 将 观察 AllElect 








关 维 














数据 方 和 多 维 
据 表 或 电子 数 
商品 ; 
1tem〔( 按 所 售 商 



































例如 ，7Zztem 


量 的 。 把 它们 看 作 数量 ， 是 因 


这 些 数据 在 才 2.2 中 。 在 这 个 2-D 表示 
日 织 ) 表示 。 所 显示 的 事实 或 度量 是 wo77ars_so7C (单位 : 


表 2.2: AllElectronics 的 销售 数据 按照 维 time, item 的 2-D 视图 。 


品 的 类 型 组 


， 以 及 如 何在 基本 0LAP 操作 


本 节 ， 你 将 学 习 数据 
使 用 它们 ， 在 























对 数据 建 模 和 观察 。 它 由 





由 维 





























个 表 与 之 相关 联 。 





心 主题 (例如 ，sales) 组 织 。 该 主题 用 事 3 





和 事实 定义 。 


个 数据 
店 能 够 记 
该 表 称 为 维 表 ， 它 进 
用 户 或 专 


| 建 一 















































上 度 


实 表 表 示 。 事 实 是 数值 度 














模式 时 ， 你 很 


























始 。 





快 就 会 明白 这 一 切 如 何 工作 。 
数据 方 是 8D 的 。 为 了 更 好 地 理解 
AllElectronics 的 销售 数 














事实 上 ， 它 是 
onics 的 销 人 





售 数据 ， 




































































称 或 度量 ， 以 及 每 个 相 

















Vancouver 每 季度 销售 的 
，Vancouver 的 销售 用 维 47ze〈 按 季度 组 织 ) 和 维 

















$1000) 。 





























其 中 销售 是 取 自 Ilocation =“Vancouver” 的 所 有 分 店 ， 所 显 
示 的 度量 是 dollars_sold 
location = “Vancouver” 
item (type) 
time (quarter) ”家 庭 娱 乐 计算 机 电话 
安全 
Q1 605 825 
Q2 14 400 
Q3 680 952 
Q4 31 512 
812 1023 
30 501 
927 1038 
38 580 























现在 ， 假 定 我 们 想 以 三 








维 角 度 观 察 销 售 数据 。 例 如 ， 我 们 想 











表 以 2-D 数据 表 序 列 的 形式 表示 。 概 念 上 讲 ， 


2.1 所 示 。 

















民 据 time，item， 和 location 观察 数据 。 
location 是 城市 Chicago, New York, Toronto 和 Vancouver。3-D 数据 如 表 2.3 所 示 。 表 2.3 的 3-D 数 ] 
我 们 也 可 以 以 3-D 数据 方 的 形式 表示 这 些 数据 ， 如 图 


注 * 

















表 2.3 Allelectronics 销售 数据 的 3-D 视图 , 根据 time，item， 和 location， 所 显示 的 度 


量 是 dollars_sold (单位 : $1000) 





location=“Chicago” 


location=“New York” location=“Toronto” 


location=“Vancouver” 

















item item item item 
家 庭 ” 计算” 电话 安 。 家庭 ”计算 ”电话 家 庭 ”计算 ”电话 家 庭 ”计算 ”电话 安全 
time 全 安全 安全 娱乐 ”机 
娱乐 ”机 娱乐 ”机 娱乐 ”机 








Ql 854 882 89 1087 968 38 819 746 43 605 825 14 










Q2 623 872 591 400 
Q3 943 890 64 1130 1024 41 894 769 52 680 952 31 
Q4 698 925 682 512 
1032 924 59 1034 1048 45 940 795 58 812 1023 30 
789 1002 728 501 
1129 992 63 1142 1091 54 978 864 59 9%7 1038 38 
870 984 784 580 
location 
(cities) Chicago 
New York 
Toronto 
Vancouver 
Ql 


ttme Q2 
【quattets) 03 





ad 





2.1: 表 2.3 数据 的 3-D 数据 方 表示 ， 维 是 time,item 和 location， 
所 显示 的 度量 为 dollars_sold (单位 : $1000) 
现在 , 假定 我 们 想 从 四 维 的 角度 观察 销售 数据 ， 附加 一 维 , 如 supplier。 观察 4-D 事物 变 得 麻烦 。 
然而 ， 我 们 可 以 把 4-D 方 看 成 3-D 方 的 序列 ， 如 图 2.2 所 示 。 如 果 我 们 按 这 种 方法 继续 下 去 ， 我 们 
可 以 把 任意 n-D 数据 方 显示 成 n-1)-D 数据 方 的 序列 。 数 据 方 是 对 多 维 数据 存储 的 一 种 比喻 ， 这 种 数 
据 的 实际 物理 存储 不 同 于 它 的 逻辑 表示 。 重 要 的 是 ， 数 据 方 是 半 维 的 ， 而 不 限于 3-D。 


supplier="SUP1" supplier="SUP2" supplier="SUP3" 













































time | | | | 
(quarters) as 轩 画 圈 











图 2.2 销售 数据 的 4-D 数据 方 表 示 ， 维 是 和 time,item,location 
和 supplier， 所 显示 的 度量 为 dollars_sold (单位 :$1000) 


上 面 的 表 显 示 不 同 汇总 级 的 数据 。 在 数据 仓库 研究 界 ， 上 面 所 示 的 每 个 数据 方 称 作 一 个 方 体 。 
给 定 一 个 维 的 集合 ， 我 们 可 以 构造 方 体 的 格 ， 每 个 在 不 同 的 汇总 级 或 group by ”〈 即 ， 根 据 维 的 不 同 


























”注意 ， 在 本 书 中 ， 查 询 语言 关键 字 用 黑体 。 














子 集 ) 显示 数据 。 方 体 的 格 称 作 数据 方 。 图 2.3 给 出 形成 维 time, item, location 和 supplierr 的 数据 方 
的 方 体格 。 











time,suppliert | item,supplier locatiory, 


titme,1tetm 四 Ss 





i 
titme,locatiot itettvlocation 








和 time,location, supplier 
titme,itett, 


| itert,locatiory, 
location 


titme, itett, supplier supplier 


time,itert,locatior, supplier 
图 2.3 方 体格 ， 形 成 维 time, item, location 和 supplierr 的 4-D 数 




















据 方 。 每 个 方 体 代表 一 个 不 同 的 汇总 


存放 最 低层 汇总 的 方 体 称 为 基本 方 体 。 例如， 图 2.2 中 的 4-D 方 体 是 给 定 维 time, item, location 
和 supplier 的 基本 方 体 。 图 2.1 是 time, item 和 location 的 3-D 方 体 〈 非 基本 的 )， 对 所 有 的 供应 商 汇 
总 。0-D 方 体 存放 最 高 层 的 汇总 ， 称 作 顶 点 方 体 。 在 我 们 的 例子 中 ， 这 是 总 销售 dollars_sold， 在 所 
有 的 四 个 维 上 汇总 。 顶 点 方 体 通 常用 all 标记 。 











































































































2.2.2 星 形 、 雪 花 和 事实 星座 : 多 维 数据 库 模 式 
































实体 -联系 数据 模型 广泛 用 于 关系 数据 库 设 计 。 在 那里 ， 数 据 库 模 式 由 实体 的 集合 和 它们 之 间 的 
联系 组 成 。 这 种 数据 模型 适用 于 联机 事务 处 理 。 然 而 ， 数 据 仓库 需要 简明 的 、 面 向 主题 的 模式 ， 便 
于 联机 数据 分 析 。 

最 流行 的 数据 仓库 数据 横 型 是 多 维 数据 模型 。 这 种 横 型 可 以 以 星 形 模式 、 雪 花 模 式 、 或 事实 星 
座 模式 形式 存在 。 让 我 们 看 看 这 些 模式 。 


星 形 模式 : 最 常见 的 模型 范例 星 形 模式 ， 其 中 数据 仓库 包括 (1) 一 个 大 的 、 包 含 大 批 数据 、 不 
含 见 余 的 中 心 表 事实 表 ); (2) 一 组 小 的 附属 表 维 表 )， 每 维 一 个 。 这 种 模式 图 很 象 星星 爆发 ， 
维 表 围绕 中 心 表 显示 在 射线 上 。 


例 2.1 作为 一 个 例子 , Allelectronics 的 星 形 模式 如 图 2.4 所 示 。sales 有 四 个 维 , 分 别 是 time, item, 
branch 和 location。 该 模式 包含 一 个 中 心事 实 表 sales, 它 包含 四 个 维 的 关键 字 和 两 个 度量 dollars_sold 
和 units_sold。 为 尽量 减 小 事实 表 的 尺寸 ， 维 标识 符 ( 如 ，time_key 和 item_key) 是 系统 产生 的 标识 
符 。 口 


注意 : 在 星 形 模式 中 ， 每 维 只 用 一 个 表 表 示 ， 0 组 属性 。 例 如 ，location 维 表 包含 属 
ee key，street，city，province_or_state，country} 。 这 一 限制 可 能 造成 某 些 见 余 。 例 如 ， 

“Vancouver” 和 “Victoria”* 都 是 加 拿 大 不 列 颠 哥伦比亚 省 的 城市 2 维 表 中 这 些 城 市 实体 的 属性 
province_or_state, country 之 间 都 会 有 些 元 余 ， 即 ， (is ep oi British Columbia, Canada), 
(...,Victoria, British Columbia, Canada)。 此 外 , 一 个 维 表 中 的 属性 可 能 形成 一 个 层次 (全 序 ) 或 格 ( 偏 
序 )。 





























































































































































































































time 准 表 
time key 


yeat 
duatter 
month 
day_of week 


day 






branch key 
branch name 
branch type 







sales 事实 表 item 维 表 
item key 

item niatme 
brand 

type 

suppler type 


time key 
item key 
branch key 
location key 


dollars_sold 
urut_ sold 


location key 
street. 

City 

province or state 


country 






图 2.4: Sales 数据 仓库 的 星 形 模 式 
雪花 模式 : 雪花 模式 是 星 型 模式 的 变种 ， 其 中 某 些 维 表 是 规范 化 的 ， 因 而 把 数据 进一步 分 解 到 














附加 的 表 中 。 结 果 ， 模 式 图 形成 类 似 于 雪花 的 形状 。 



































雪花 模式 和 星 形 横 式 的 主要 不 同 在 于 ， 雪 人 花 模 式 的 维 表 可 能 是 规范 化 形式 ， 以 便 减 少见 余 。 这 
种 表 易 于 维护 ， 并 节省 存储 空间 ， 因 为 当 维 结构 作为 列 包含 在 内 时 ， 大 维 表 可 能 非常 大 。 然 而 ， 与 




















构 可 能 降低 浏览 的 性 能 。 这 样 ， 系 统 
式 不 如 星 形 模式 流行 。 





巨大 的 事实 表 相 比 ， 这 种 空间 的 节省 可 以 忽略 。 此 外 ， 由 于 执行 查询 需要 更 多 的 连接 操作 ， 雪 人 花 结 























的 性 能 可 能 相对 受到 影响 。 因 此 ， 在 数据 仓库 设计 中 ， 雪 花 模 














例 2.2 作为 一 个 例子 ，Allelectronics 的 sales 的 雪花 模式 在 图 2.5 给 出 。 这 里 ，sales 事实 表 与 图 























2.4 的 星 形 模 式 相 同 。 两 个 模式 的 主要 不 同 是 维 表 。 星 形 模式 中 的 item 的 单个 维 表 在 雪花 模式 中 被 
规范 化 ， 导 致 新 的 item 表 和 supplier 表 。 例 如 ， 现 在 item 维 表 包含 属性 item_key, item_name, brand, 





type 和 supplier_key，supplier_key 连 























ul 











接 到 supplier 维 表 。 而 supplier 维 表 包含 信息 supplier_key 和 








supplier_type。 类 似 地 ， 星 形 模式 中 location 的 单个 维 表 被 规范 化 成 两 个 表 : 新 的 location 和 city。 
新 的 location 表 中 的 location_key 现在 连接 到 city 维 。 注 意 ， 如 果 愿 意 的 话 ， 图 2.5 雪花 模式 中 的 








province_or_state 和 country 还 可 以 进 一 














步 规范 化 。 口 


time 准 表 sales 事实 表 item 维 表 supplier 维 表 


time key 
Ye 让 


time key 


quarter item key 


month 
day_of week 


branch key 
location key 





item_ key supplier key 
item_niatme supplier type 
brand 


type 
suppler key 





day dollars_sold 


unit sold 


branch key 
branch name 
branch type 










| location key city 维 表 
street. 


city key city_ keyw 


city 
province_ or state 





country 








图 2.5: sales 数据 仓库 的 雪花 模式 




















事实 星座 : 复杂 的 应 用 可 能 需要 多 个 事实 表 共享 维 表 。 这 种 模式 可 以 看 作 星 形 模式 集 ， 因 此 称 
为 星系 模式 ， 或 事实 星座 。 


例 2.3 一 个 事实 星座 的 例子 在 图 2.6 中 给 出 。 该 模式 说 明了 两 个 事实 表 , sales 和 shipping。sales 
表 的 定义 与 星 形 模式 (图 2.4) 相同 。shipping 表 有 五 个 维 或 关键 字 : item_key, time_key, shipper_key, 
from_location 和 to_location; 两 个 度量 : dollars_cost 和 units_shipped。 事 实 星座 模式 允许 事实 表 共 
享 维 表 。 例 如 ，sales 和 shipping 事实 表 共 享 维 表 time, item 和 location。 口 





















































































thwe 维 表 sales 事实 表 
time key time_key item key item_ ke shipper key 




















Ts item key item_ name time_ key shipper_name 
duarter branch key brand shipper_ key location key 
month location key type ftom location shipper_ type 
day_of_ week 一 图 to_location 


day 


Het th 
dollars_sold Se 
unit_sold dollars_cost 
urits shipped 


branch 准 表 


location key 
Stteet 

city 

province_ or state 


country 








branch key 
branch name 
branch type 
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2.6: sales 和 shipping 数据 仓库 的 事实 星座 模式 


在 数据 仓库 中 ， 数 据 仓 库 和 数据 集 市 是 有 区 别 的 。 数 据 仓库 收集 了 关于 整个 组 织 的 主题 〈 如 顾 
商品 、 销 售 、 资 产 和 人 员 ) 信息 ， 因 此 是 企业 范围 的 。 对 于 数据 仓库 ， 通 常 使 用 事实 星座 模式 ， 
为 它 能 对 多 个 相关 的 主题 建 模 。 马 一 方面 ， 数 据 集 市 是 数据 仓库 的 一 个 部 门 子 集 ， 它 针对 选 定 的 
因此 是 部 门 范 围 的 。 对 于 数据 集 市 , 流行 星 形 或 雪花 模式 ， 因 为 它们 都 适合 对 单个 主题 建 模 ， 
星 形 模式 更 流行 、 更 有 效 。 
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加 此 辆 由 
哮 圈 
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2.2.3 定义 星 形 、 雪 花 和 事实 星座 的 例子 
































“我 怎样 对 我 的 数据 定义 多 维 模式 ? ” 正 象 关系 数据 库 查 询 语言 SQL 可 以 用 于 说 明 关 系 查询 一 
样 ， 数 据 挖掘 查询 语言 可 以 用 于 说 明 数 据 挖掘 任务 。 特 殊 地 ， 我 们 考察 一 种 基于 SQL 的 数据 挖掘 查 
询 语言 DMQL。DMGQL 包括 定义 数据 仓库 和 数据 集 市 的 语言 原 语 。 说 明 其 它 数据 挖掘 任务 的 原 语 ， 
如 挖掘 概念 /类 描述 、 关 联 、 分 类 等 ， 将 在 第 4 章 介 绍 。 
数据 仓库 和 数据 集 市 可 以 使 用 两 种 原 语 定义 : 一 种 是 方 定义 ， 一 种 是 维 定义 。 方 定义 语句 具有 
如 下 语法 形式 : 
define cube <cube name> [<dimension_ list>] : <measure_list> 
维 定义 语句 具有 如 下 语法 形式 : 
define dimension <dimension_name> as (<attribute_or_subdimension_list>) 
让 我 们 看 一 些 例子 ， 看 看 如 何 使 用 DMOQL 定义 例 2.1 到 2.3 的 星 形 、 雪 花 和 星座 模式 。 
例 2.4 例 2.1 和 图 2.4 定义 的 星 形 模式 用 DMQL 定义 如 下 : 


define cube sales_star [time, item, branch, location]: 

dollars_sold = sum(sales_in_dollars), units_sold = count(*) 
define dimension time as (time_key, day, day_of_week, month, quarter, year) 
define dimension item as (item_key, item_name, brand, type, supplier_type) 
define dimension branch as (branch_key, branch_name, branch_type) 



































































































































define dimension location as (location_key, street, city, province_or_state, country) 


define cube 语句 定义 一 个 方 ， 叫 做 sales_star， 它 对 应 于 例 2.1 的 中 心 表 sales 事实 表 。 该 命令 
说 明 维 表 的 关键 字 和 两 个 度量 ，4dollars_sold 和 units_sold。 数 据 方 具有 四 个 维 ， 分 别 为 time, item, 


branch 和 location。 一 个 define dimension 语句 定义 一 个 维 。 口 
例 2.5 例 2.2 和 图 2.5 定义 的 雪花 模式 用 DMQL 定义 如 下 : 


define cube sales_snowflake [time, item, branch, location]: 
dollars_sold = sum(sales_in_dollars), units_sold = count(*) 
define dimension time as (time_key, day, day_of_week, month, quarter, year) 
define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) 
define dimension branch as (branch_key, branch_name, branch_type) 
define dimension location as (location_key, street, city(city_key, city, province_or_state, country)) 


该 定义 类 似 于 sales_star( 例 2.4)， 不 同 的 是 这 里 item 和 location 维 表 是 规范 化 的 。 例 如 ， 在 
sales_snowflake 数据 方 中 ，sales_star 数据 方 的 item 维 被 规范 化 成 两 个 维 表 ，item 和 supplier。 注 意 : 
supplier 的 维 定义 在 item 的 定义 中 说 明 。 用 这 种 方式 定义 supplier， 隐 式 地 在 item 的 定义 中 创建 了 
一 个 supplier_key。 类 似 地 ， 在 sales_snowflake 数据 方 中 ，sales_star 数据 方 的 location 维 被 规范 化 成 
两 个 维 表 ,location 和 city。city 的 维 定义 在 location 的 定义 中 说 明 。 用 这 种 方式 , city_key 在 location 
的 定义 中 隐 式 地 创建 。 口 


例 2.6 例 2.3 和 图 2.6 定义 的 星座 模式 用 DMGQL 定义 如 下 : 


define cube sales [tme, item, branch, location]: 

dollars_sold = sum(sales_in_dollars), units_sold = count(*) 
define dimension time as (time_key, day, day_of week, month, quarter, year) 
define dimension item as (item_key, item_name, brand, type, supplier_type) 
define dimension branch as (branch_key, branch_name, branch_type) 
define dimension location as (location_key, street, city, province_or_state, country) 






































































































































































































































define cube shipping [time, item, shipper, from_location, to_location]: 
dollars_sold = sum(cost_in_dollars), units_sipped = count(*) 
define dimension time as time in cube sales 
define dimension item as item in cube sales 
define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, 
shipper_type) 
define dimension from_location as location in cube sales 
define dimension to_location as location in cube sales 


define cube 语句 用 于 定义 数据 方 sales 和 shipping, 分 别 对 应 于 例 2.3 模式 的 两 个 事实 表 。 注意 ， 
数据 方 sales 的 time，item 和 location 维 可 以 与 数据 方 shpping 共享 。 例 如 ，time 维 ， 在 定义 数据 方 
shipping 语句 之 下 ， 用 “define dimension time as time in cube sales ”说明 。 口 








2.2.3 度量 : 它们 的 分 类 和 计算 











“如 何 计算 度量 ”” 为 回答 这 个 问题 ， 我 们 首先 看 看 如 何 对 度量 分 类 。 注 意 ， 数 据 方 空间 的 多 
维 点 由 维 - 值 对 定义 。 例 如 , <time = “Q1”, location =“Vancouver， item =" ote 数据 方 度量 是 
个 数值 函数 ， 该 函数 可 以 对 数据 方 的 每 一 个 点 求 值 。 通过 对 给 定点 的 各 维 - 值 对 聚集 数据 ， 计 算 该 
点 的 度量 值 。 稍 后 ， Se 
度量 可 以 根据 其 所 用 的 聚集 函数 分 成 三 类 : 


分 布 的 ， 一 个 聚集 函数 是 分 布 的 ， 如 果 它 能 以 如 下 分 布 方式 进行 计算 ， 设 数据 被 划分 为 n 个 集 
合 ， 函 数 在 每 一 部 分 上 的 计算 得 到 一 个 聚集 值 。 如 果 将 函数 用 于 n 个 聚集 值得 到 的 结果 ， 与 将 函数 
用 于 所 有 数据 得 到 的 结果 一 样 ， 则 该 函数 可 以 用 分 布 方式 计算 。 例 如 ，countO 可 以 这 样 计算 : 首先 
将 数据 方 分 割 成 子 方 的 集合 , 对 每 个 子 方 计算 count0, 然 后 对 这 些 子 方 得 到 的 计数 求 和 。 因 此 ,count0 
是 分 布 聚集 函数 。 同 理 ，sum0，min0 和 max0) 是 分 布 聚集 函数 。 一 个 度量 是 分 布 的， 如果 它 可 以 用 
分 布 聚集 函数 得 到 。 

































































































































































































































































































































































代数 的 : 一 个 聚集 函数 是 代数 的 ， 如 果 它 能 够 由 一 个 具有 M (其 中 ，M 是 一 个 整数 界 ) 个 参数 
的 代数 函数 计算 ， 而 每 个 参数 都 可 以 用 一 个 分 布 聚集 函数 求 得 。 例 如 ，avgO 可 以 由 sum(y/countO 计 
算 , 其 中 sum0 和 countO 是 分 布 聚 集 函 数 。 类 似 地 , 可 以 表明 min_ NO, max_NO 和 standard_deviation() 
是 代数 聚集 函数 。 一 个 度量 是 代数 的 ， 如 果 它 可 以 用 代数 聚集 函数 得 到 。 


整体 的 : 一 个 聚集 函数 是 整体 的 ， 如 果 描 述 它 的 子 聚 集 所 需 的 存储 没有 一 个 常数 界 。 即 ， 不 存 
在 一 个 具有 M 个 (其 中 ,M 是 常数 ) 参 数 的 代数 函数 进行 这 一 计算 ,整体 函数 的 常见 例子 包括 median()， 
mode0〈 即 ， 最 常 出 现 的 项 )， 和 rank()。 一 个 度量 是 整体 的 ， 如 果 它 可 以 用 整体 聚集 函数 得 到 。 

大 部 分 数据 方 应 用 需要 有 效 地 计算 分 布 的 和 代数 的 度量 。 对 于 这 些 ， 存 在 许多 有 效 的 技术 。 相 
比 之 下 ， 有 效 地 计算 整体 度量 是 很 困难 的 。 然 而 ， 对 于 有 些 整 体 函 数 的 近似 计算 ， 有 效 的 技术 是 存 
在 的 。 例如， 有 些 技术 可 以 以 满意 的 结果 估计 大 数据 集 的 中 值 ， 而 不 是 精确 地 计算 median 0 。 在 许 
多 情况 下 ， 这 些 技术 足以 克服 整体 函数 有 效 计算 的 困难 。 

例 2.7 许多 数据 方 度量 可 以 用 关系 的 聚集 操作 计算 .在 图 2.4 中 ,我 们 看 到 了 AllElectronics 
的 sales 星 形 模式 ， 它 包含 两 个 度量 ，4do77ars so7g 和 units so7d。 在 例 2.4 中 ， 我 们 用 DMQL 命 
邻 定义 了 对 应 于 该 模式 的 sales_star 数据 方 。“ 但 是 , 如 何 解 释 这 些 命令 , 以 产生 特定 的 数据 方 ? ” 

设 定 义 AllElectronics 的 关系 数据 库 模 式 如 下 : 


time (time key, day, day of week, month, quarter, year) 




















































































































































































































item(item key, item name, branch, type) 
branch (branch key, branch name, branch type) 
location(location key, street, city, province or state, country) 
sales(time key, item key, branch key, location key, number of units sold, price) 
例 2.4 中 DMQL 说 明 被 翻译 成 如 下 SQL 查询 ， 这些 查询 产生 所 需要 的 sales_star 数据 方 。 这 里 ， 
聚集 函数 sum 用 于 计算 wo77ars sold 和 和 zz7ts sold。 
select s.time key, s.item key, s.branch key, s. location key, 














sum(s. number of units sold*s.price), sum(s.number of units sold) 
from time t, item i, branch b, location 1, sales s 
Where s.time key=t. time key and s. item key=i. item key 
and s.branch key=b. branch key and s. location key=]. location key 
group by s.time key, s. item key, s.branch key, s. location key 
以 上 查询 创建 的 方 是 sales_star 数据 方 的 基本 方 体 。 它 包含 数据 方 定义 中 说 明 的 所 有 维 ， 其 
中 每 个 维 的 粒度 在 连接 键 层 。 连 接 键 是 连接 事实 表 和 维 表 的 关键 字 。 与 基本 方 体 关联 的 事实 表 称 为 
基本 事实 表 。 
改变 group by 子 句 ， 可 以 产生 sa7es star 数据 方 的 其 它 方 体 。 例 如 ， 我 们 可 以 按 t. month， 
而 不 是 按 s time_ key 分 组 ， 这 将 按 月 分 组 求 和 和 ， 得 到 度量 。 去 掉 “group by s.branch key”， 也 
可 以 得 到 较 高 层 的 方 体 〈 其 中 ， 销 售 将 对 所 有 分 店 求 和 ， 而 不 再 按 分 店 ) 。 假 定 我 们 修改 以 上 SQL 
查询 ， 去 掉 所 有 的 group by 子 句 。 这 将 得 到 给 定数 据 的 do77ars_so7d 的 总 和 ，zzts so7c 的 全 部 
计数 。 这 个 零 维 方 体 称 为 sa7es_star 数据 方 的 顶点 方 体 。 此 外 ， 其 它 方 体 可 以 通过 对 基本 方 体 进 
行 选择 和 /或 投影 产生 。 按 照 这 种 办 法 ， 可 以 把 数据 方 看 作 由 方 体 的 格 组 成 ， 每 个 方 体 对 应 于 给 定 
数据 在 不 同 层 次 上 的 汇总 。 口 
当前 ， 数 据 方 技术 大 多 限制 多 维 数 据 库 的 度量 为 数值 数据 。 然 而 ， 度 量 也 可 以 用 于 其 它 数据 类 
型 ， 如 空间 、 多 媒体 、 和 文本 数据 。 这 些 技术 将 在 第 9 章 讨 论 。 



























































































































































2.2.5 引入 概念 分 层 














“什么 是 概念 分 层 ? ”一 个 概念 分 层 定义 一 个 映射 序列 ， 将 低层 概念 到 更 一 般 的 高 层 概念 。 考 
虑 维 Jocation 的 概念 分 层 。7ocat7on 的 城市 值 包 括 vancouver，Toronto，New York 和 Chicago。 
然而 ， 每 个 城市 可 以 映射 到 它 所 属 的 省 或 州 。 例 如 ，Vancouver 可 以 映射 到 British Columbia， 而 
Chicago 映射 到 Il1linois。 这 些 省 和 州 依 次 可 以 映射 到 它 所 属 的 国家 ， 如 加 拿 大 或 美国 。 这 些 映 射 
形成 7ocation 维 的 概念 分 层 ， 将 低层 概念 〈 如 ， 城 市 ) 映射 到 更 一 般 的 较 高 层 概 念 〈 如 ， 国 家 ) 。 
上 面 介 绍 的 概念 分 层 如 图 2. 7 所 示 。 














































































































图 2.7 _ location 维 的 一 个 概念 分 层 。 由 于 版 面 限制 ， 并 非 所 有 
结 点 都 在 图 中 显示 (在 结 点 之 间 用 “... ”指出 ) 


许多 概念 分 层 隐 含 在 数据 库 模 式 中 。 例 如 ， 假 定 Jocation 维 由 属性 number, street, city, 
province or state, Zipcode 和 country 定义 。 这 些 属性 按 一 个 全 序 相 关 , 形成 一 个 层次 , 如 “city 
< province or state < country”。 该 层次 如 图 2.8(a) 所 示 。 维 的 属性 也 可 以 组 织 成 偏 序 ， 形 成 
一 个 格 。 例 如 ， 维 time 基于 属性 day，week，month，gquarter 和 year 就 是 一 个 偏 序 “day 《 fnonth 
人 week 《 year”"。 该 格 结构 如 图 2. 8(b) 所 示 。 概 念 分 层 为 数据 库 横 式 中 属性 的 全 序 或 
序 称 作 模式 分 层 。 许 多 应 用 共有 的 概念 分 层 ， 如 时 间 的 概念 分 层 ， 可 以 在 数据 挖掘 系统 中 预定 义 。 
数据 控 折 系统 应 当 为 用 户 提供 灵活 性 ， 人 允许 用 户 根据 有 具体 的 应 用 剪裁 预定 义 的 分 层 。 例 如 ， 用 户 可 
能 想 定 义 财 政 年 由 4 月 1 日 开始 ， 而 学 年 由 7 月 1 日 开始 。 

































































































































































Se 















































































































































country year 
province_or_state 0 quarter 
| 
city month week 
street O day 
(a 多 


图 2.8: ”数据 仓库 中 属性 的 层次 结构 和 格 结构 : 7ocation 的 分 层 ; time 的 格 


概念 分 层 也 可 以 通过 将 给 定 维 或 属性 的 值 离散 化 或 分 组 来 定义 ， 产 生 集 合 分 组 分 层 。 可 以 在 值 
组 间 定 义 全 序 或 偏 序 。 集 合 分 组 概念 分 层 的 一 个 例子 如 图 2. 9 所 示 关 于 维 price 的 集合 分 组 概念 分 
层 。 其 中 ， 区 间 (8. . $7] 表示 由 $Y (不 包括 到 $ 了 (包括 )。 

对 于 一 个 给 定 的 属性 或 维 ， 根 据 不 同 的 用 户 视图 ， 可 能 有 多 个 概念 分 层 。 例 如 ， 用 户 可 能 
j jnepensive，moderatel]y priced 和 和 expensive 来 组 织 price。 

概念 分 层 可 以 由 系统 用 户 、 领 域 专家 、 知 识 工程 师 人 工地 提供 ， 也 可 以 根据 数据 分 布 的 统计 分 
析 自 动 地 产生 。 概 念 分 层 的 自动 产生 在 第 3 章 介绍 。 概 念 分 层 的 进一步 讨论 在 第 4 章 。 

正如 我 们 在 下 一 小 节 将 看 到 的 ， 概 念 分 层 允 许 我 们 在 各 种 抽象 级 处 理 数 据 。 
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“由 于 周 (week) 通 常 跨 月 (month)， 常 常 不 把 它 视 为 月 的 低层 抽象 。 然 而 ， 常 常 把 它 视 为 年 (yean) 的 低层 抽象 ， 因 为 一 
年 大 约 包含 52 周 。 












































图 2.9: 属性 price 的 概念 分 层 
2.2.6 多 维 数据 模型 上 的 OLAP 操作 





“在 OLAP 中 ， 如 何 使 用 概念 分 层 ? ”在 多 维 数据 模型 中 ， 数 据 组 织 成 多 维 ， 每 维 





















































包含 由 概念 


分 层 定义 的 多 个 抽象 层 。 这 种 组 织 为 用 户 从 不 同 角度 观察 数据 提供 了 灵活 性 。 有 一 些 0LAP 数据 方 
操作 用 来 物化 这 些 不 同 视图 ， 允许 交互 查询 和 分 析 手 头 数据 。 因 此 ，0LAP 为 交互 数据 分 析 提 供 了 






































友好 的 环境 。 








例 2.8 让 我 们 看 看 一 些 典 型 的 多 维 数据 0LAP 操作 。 所 描述 的 每 种 操作 都 图 示 在 图 2. 10 中 。 
图 的 中 心 是 AllElectronics 的 sales 数据 方 。 该 数据 方 包含 Seba 
Jocation 按 city 值 聚 集 ，time 按 guarter 值 聚 集 ， 而 item 按 tyzpes 聚 
该 数据 方 为 中 心 数 据 方 。 所 显示 的 度量 是 do17ars_so1g (单位 :$1000) 。 “(为 提高 可 读 性 ， 只 显 
示 一 些 方 体 单元 值 。) 所 考察 的 数据 是 Vancouver，Toronto，New York 和 Chicago 的 数据 。 

上 卷 : 上 卷 操 作 〈 有 些 人 称 之 为 “上 外 ”操作 ) 或 者 通过 沿 概念 分 层 向 上 人 攀升， 或 者 通过 
约 ， 在 数据 方 上 进行 聚集 。 图 2. 10 图 示 了 在 图 2.7 给 出 的 Jocation 维 





































































































































































































二 item 维 ， 其 中 ， 
。 为 便于 解释 ， 我 们 称 








维 归 


层次 向 上 攀升 ， 在 中 心 数 据 


方 执行 上 卷 操作 的 结果 。 分 层 被 定义 为 全 序 street city 《 province or state country。 所 
展示 的 上 卷 操作 沿 Jocation 的 分 层 ， 由 city 层 向 上 到 covtz 层 聚集 数据 。 换 一 名 话说， 结果 数 














据 方 按 country， 而 不 是 按 city 对 数据 分 组 。 





当 用 维 归 约 进 行 上 卷 时 ， 一 个 或 多 个 维 由 给 定 的 数据 方 删 除 。 例 如 ， 考 虑 只 包含 两 维 
和 time 的 数据 方 sa7es。 上 卷 可 以 删除 time 维 ， 导致 整个 销售 按 地 点 ， 而 不 是 按 地 点 和 
下 钻 : 下 钻 是 上 卷 的 逆 操 作 ， 它 由 不 太 详 细 的 数据 到 更 详细 的 数 ] 







































































分 层 向 下 或 引入 新 的 维 来 实现 。 图 2. 10 图 示 了 沿 着 dar 《 month 《 







































































据 。 下 钻 可 以 通过 治 维 























Jocation 
时 间 聚 集 。 
的 概念 


quarter 《year 定义 的 time 





维 的 概念 分 层 向 下 , 在 中 心 数据 方 执行 下 铅 操 作 的 结果 。 这 里 ,下 钻 由 tiwe 维 的 分 层 向 下 , 由 quarter 





























层 到 更 详细 的 Von 成 层 。 结 果 数 据 方 详细 地 列 出 每 月 的 总 销售 ， 而 不 是 按 季 度 求 和 。 
























































于 下 铅 操作 对 给 定数 据 添 加 更 多 细节 ， 它 也 可 以 通过 添加 新 的 维 到 数据 方 来 实现 。 


以 通过 引入 一 个 的 维 ， 如 customer_type， 在 图 2. 10 中 心 表 的 数据 方 上 执行 下 钻 操作 。 
































例如 ， 可 


切片 和 切 块 : 切片 操作 在 给 定 的 数据 方 的 一 个 维 上 进行 选择 ， 导 致 一 个 子 方 。 图 2. 10 图 示 了 
一 个 对 维 tiwe 的 切片 操作 ， 它 对 中 心 数据 方 使 用 条 件 time = ”907” 选 择 销售 数据 。 切 块 操作 通过 











对 两 个 或 多 个 维 执行 选择 ， 定 义 子 方 。 图 2. 10 图 示 了 一 个 切 块 操作 ， 
件 对 中 心 表 切 块 : (7ocat7on = ”Montreal”or Vancouver”) and (time = ”0Q7’ or ”02’) and (item 























= ”home entertainment” or bee 



























































它 涉及 三 个 维 ， 根 据 如 下 条 


转轴 : 转轴 (又 称 旋转 ) 是 一 种 目 视 操作 ， 它 转动 数据 的 视角 ， 提 供 数据 的 奉 代表 示 。 图 2. 10 

















给 出 一 个 转轴 操作 ,这 里 item 和 1ocation 在 一 个 2-D 切片 上 转动 ,其 
或 将 一 个 3-D 立方 转换 成 2-D 平面 序列 。 














它 例子 包括 转动 3-D 数据 方 ， 


其 它 0LAP 操作 : 有 些 0LAP 还 提供 其 它 操作 。 例如 , drill_across 执行 涉及 多 个 事实 表 的 查询 ; 











drill_through 操作 使 用 关系 SQL 机 制 ， 钻 到 数据 方 的 底层 ， 到 后 端 关系 表 。 
其 它 0LAP 操作 可 能 包括 列 出 表 中 最 高 或 最 低 的 WW 项 ， 以 及 计算 移动 平均 值 、 增 长 率 、 利 润 、 内 























部 返回 率 、 贬 值 、 流 通 转换 、 和 统计 功能 























OLAP 提供 了 分 析 建 模 机 制 ， 包括 推导 比率 、 变 差 等 ， 以 及 计算 跨越 多 维度 量 的 计算 引擎 。 它 能 
在 每 一 粒度 级 和 在 所 有 维 的 交叉 产生 汇总 、 聚 集 、 分 层 。0LAP 也 支持 预报 、 趋 势 分 析 和 统计 分 析 函 
数 模型 。 在 这 种 意义 下 ，0LAP 引擎 是 一 种 强 有 力 的 数据 分 析 工 具 。 
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图 2.10 多 维 数据 上 0LAP 操作 的 典型 例子 





OLAP 系统 与 统计 数据 库 

















OLAP 的 许多 特征 ， 如 使 用 多 维 数据 模型 和 概念 分 层 、 与 维 关联 的 度量 、 上 卷 和 下 钻 概念 ， 也 存 
在 于 统计 数据 库 (SDB)〉 的 早期 工作 中 。 统 计数 据 库 是 一 种 用 于 支持 统计 应 用 的 数据 库 系 统 。 这 两 
种 类 型 的 系统 之 间 的 类 似 性 很 少 讨论 ， 主 要 是 由 于 它们 使 用 了 不 同 的 术语 ， 并 有 不 同 的 应 用 领域 。 

然而 ，OLAP 和 SDB 也 有 显著 的 差别 。 SDB 趋向 于 关注 社会 经 > 齐 应 用 ， 而 OLAP 骨 在 商务 应 用 。 概 
念 分 层 的 保密 性 问题 是 SDB 关注 的 主要 问题 。 例 如 ， 给 定 汇总 的 社会 经 济 数据 ， 允 许 用 户 观 察 对 应 
的 低层 数据 是 有 争议 的 。 最 后 ， De 





































































































































































































2.2.7 查询 多 维 数据 库 的 星 形 网 查询 模型 


多 维 数据 库 查 询 可 以 基于 星 形 网 模型 。 星 形 网 模型 由 从 中 心 点 发 出 的 射线 组 成 ， 其 中 每 一 条 射 
线 代 表 一 个 维 概念 分 层 。 概念 分 层 上 的 每 个 “ “抽象 级 ” 称 为 一 个 脚印 ， 代 表 诸如 上 卷 、 下 钻 等 OLAP 
操作 可 用 的 粒度 。 

例 2.9 AllElectronics 数据 仓库 的 一 个 星 形 网 查询 模型 如 图 2. 11 所 示 。 该 星 形 网 由 四 条 射 
线 组 成 ， 分 别 代表 属性 location，customer，item 和 time 的 维 层 次 结构 。 每 条 线 由 一 些 脚 印 组 成 ， 
代表 该 维 的 抽象 级 。 例 如 ，time 线 有 四 个 脚印 : “qay”，,， “month”, “quarter” 和 “year”。 一 
个 概念 分 层 可 以 涉及 单个 属性 〈 象 time 分 层 中 的 qate) ， 或 若干 属性 〈 例 如， 概念 分 层 Jocation 
涉及 属性 street, city, province or state 和 co 好 门 。 为 了 考察 AllElectronics 的 商品 销售 ， 
可 以 沿 着 time 维 上 卷 ， WNonth 到 ovarter， 或 沿 着 7ocat7onp 维 下 钻 ， 由 country 到 city。 通 过 
用 高 层 抽象 〈 如 time 维 的 “year”) 值 蔡 换 低层 抽象 〈 如 time 维 的 “day”) 值 ， 概 念 分 层 可 以 
用 于 泛 化 数据 。 通 过 用 低层 抽象 值 替 换 高 层 抽象 值 ， 概 念 分 层 也 可 以 特 化 数据 。 口 
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图 2. 11: 商务 查询 建 模 : 一 个 星 形 网 模型 





2.3 数据 仓库 的 系统 结构 


本 节 ， 我 们 讨论 数据 仓库 的 结构 问题 。2. 3. 1 小 节 介 绍 如 何 设计 和 构造 数据 仓库 。2. 3. 2 小 节 
介绍 三 层 数据 仓库 结构 。2. 3. 3 小 节 提 供用 于 0LAP 处 理 的 各 种 不 同类 型 的 仓库 服务 器 。 



































2.3.1 数据 仓库 的 设计 步骤 和 结构 





本 小 节 提 供 数 据 仓 库 设 计 的 一 个 商务 分 析 框 架 ， 同 时 介绍 设计 过 程 所 涉及 的 基本 步 又 
数据 仓库 设计 : 一 个 商务 分 析 框 架 
“数据 仓库 为 商务 分 析 提 供 了 什么 ? ”首先 ， 拥 有 数据 仓库 可 以 提供 竞争 优势 。 通 过 提供 相关 
信息 ， 据 此 测量 性 能 并 作出 重要 调整 ， 以 帮助 战胜 其 它 竞 争 对 手 。 其 次 ， 数 据 仓库 可 以 加 强生 产能 
力 ， 因 大 它 能 够 快速 有 效 地 搜集 准确 描述 组 织 机 构 的 信息 。 再 次 ，， 数据 仓库 促进 了 与 顾客 的 联系 ， 
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因为 它 跨 越 所 有 商务 、 所 有 部 门 、 所 有 市 场 ， 提 供 了 顾客 和 商品 的 一 致 视图 。 最 后 ， 通 过 以 一 致 、 
可 靠 的 方式 长 期 跟踪 趋势 、 式 样 、 例 外 ， 数 据 仓库 可 以 降低 费用 。 
为 建立 有 效 的 数据 仓库 ， 需 要 理解 和 分 析 商 务 需求 ， 并 构造 一 个 商务 分 析 框架 。 构 造 一 个 大 的 、 
复杂 的 信息 系统 就 象 建 一 个 大 型 、 复 杂 的 建筑 ， 业 主 、 设 计 师 、 建 筑 者 都 有 不 同 的 视图 。 这 些 观点 
结合 在 一 起 ， 形 成 一 个 复杂 的 框架 ， 代 表 自 顶 向 下 、 商 务 驱 动 ， 或 业主 的 视图 ， 也 代表 自 底 向 上 、 
建筑 者 驱动 ， 或 信息 ,系统 实现 者 的 视图 
关于 数据 仓库 的 设计 ， 四 种 不 同 的 视图 必须 考虑 : 自 顶 向 下 、 数 据 源 、 数 据 仓库 、 商 务 查询 。 
田 自 顶 向 下 视图 使 得 我 们 可 以 选择 数据 仓库 所 需 的 相关 信息 。 这 些 信息 能 够 满足 当前 和 未 来 商务 
的 需求 。 
上 数据 源 视 图 揭示 被 操作 数据 库 系 统 捕 获 、 存 储 、 和 管理 的 信息 。 这 些 信息 可 能 以 不 同 的 详细 程 
度 和 精度 建 档 ， 存 放 在 由 个 别 数 据 源 表 到 集成 的 数据 源 表 中 。 通 常 ， 数 据 源 用 传统 的 数据 建 模 
技术 ， 如 实体 -联系 模型 或 CASE (计算 机 辅助 软件 工程 工具 建 模 。 
昌 ”数据 仓库 视图 包括 事实 表 和 维 表 。 它 们 提供 存放 在 数据 仓库 内 部 的 信息 ， 包 括 预 先 计 算 的 和 与 
计数 ， 以 及 关于 源 、 日 期 、 原 时 间 等 。 
加 最 后 ， 商 务 查 询 视图 是 从 最 终 用 户 的 角度 透视 数据 仓库 中 的 数据 。 
建立 和 使 用 数据 仓库 是 一 个 复杂 的 任务 ， 因 为 它 需 要 商务 技巧 、 技 术 技巧 和 程序 管理 技巧 。 关 
于 商务 技巧 ， 建 立 数据 仓库 涉及 理解 这 样 一 个 系统 如 何 存储 和 管理 它 的 数据 ， 如 何 构造 一 个 提取 程 
序 ， 将 数据 操作 数据 库 转 换 到 数据 仓库 ， 如 何 构造 一 个 仓库 刷新 软件 ， 合 理 地 保持 数据 仓库 中 的 
数据 相对 于 操作 数据 库 中 数据 的 当前 性 。 使 用 数据 仓库 涉及 理解 数据 的 含义 ， 以 及 理解 商务 需求 并 
将 它 转换 成 数据 仓库 查询 。 关 于 技术 技巧 ， 数 据 分 析 需 要 理解 如 何 由 定量 信息 作出 估价 ， 以 及 如 何 
根据 数据 仓库 中 的 历史 信息 得 到 的 结论 推导 事实 。 这 些 技巧 包括 发 现 模 式 和 趋势 ， 根 据 历史 推断 趋 
势 和 发 现 不 规则 的 能 力 ， 并 根据 这 种 分 析 提 出 相应 的 管理 建议 。 最 后 ， 程 序 管理 技巧 涉及 需要 与 许 
多 技术 人 员 、 经 销 商 、 最 终 用 户 交 往 ， 以 便 以 及 时 、 合 算 的 方式 提交 结果 。 
数据 仓库 的 设计 过 程 
“如 何 设 计数 据 仓 库 ? ”数据 仓库 可 以 使 用 自 顶 向 下 方法 、 自 底 向 上 方法 ,或 二 者 结合 的 混合 
方法 设计 。 自 顶 向 下 方法 由 总 体 设计 和 规划 开始 。 当 技术 成 熟 并 已 掌握 ， 对 必须 解决 的 商务 问题 清 
楚 并 已 很 好 理解 时 ， 这 种 方法 是 有 用 的 。 自 底 向 上 方法 以 实验 和 原型 开始 。 在 商务 建 模 和 技术 开发 
的 早期 阶段 ， 这 种 方法 是 有 用 的 。 这 样 可 以 以 相当 低 的 代价 前 进 ， 在 作出 重要 承诺 之 前 评估 技术 的 
利益 。 在 混合 方法 下 ， 一 个 组 织 既 能 利用 自 顶 向 下 方法 的 规划 的 、 战 略 的 自然 特点 ， 又 能 保持 象 
底 向 上 方法 一 样 快速 实现 和 立即 应 用 。 
从 软件 工程 的 观点 ， 数 据 仓库 的 设计 和 构造 包含 以 下 步骤 : 规划、 需求 研究 、 问 题 分 析 、 仓 库 
设计 、 数 据 集成 和 测试 ， 最 后 ， 配 置 数据 仓库 。 开发 : 瀑布 式 方法 和 
螺旋 式 方 法 。 瀑 布 式 方法 在 进行 下 一 步 之 前 ， 每 一 步 都 进行 结构 化 和 系统 的 分 析 ， 就 象 瀑 布 一 样 ， 
从 一 级 落 到 下 一 级 。 螺 旋 式 方法 涉及 功能 渐 增 的 系统 的 快速 产生 ， 相 继 版 本 之 间 的 间隔 很 短 。 对 于 
数据 仓库 ， 特别 是 对 于 数据 集 市 的 开发 ， 这 是 一 个 好 的 选择 ， 因 为 其 周转 时 间 短 ， 能 够 快速 修改 ， 
玫 晶 新 的 设计 和 技术 可 以 快速 接受 。 
一 般 地 ， 数 据 仓库 的 设计 过 程 包含 如 下 步 
1 ”选取 待 建 模 的 商务 处 理 ， 例 如 ,订单 、 二、 出 货 、 库 存 、 记 帐 管理 、 销 售 、 和 一 般 分 类 帐 。 
如 果 一 个 商务 过 程 是 有 组 织 世 六 涉及 多 个 复杂 的 对 象 ， 应 当选 用 数据 仓库 模型 。 然 而 ， 如 果 
理 是 部 门 的， 并 关注 某 一 类 商务 处 理 ， 则 应 选择 数据 集 市。 
务 处 理 的 粒度 。 对 于 处 理 ， 该 粒度 是 基本 的 、 在 事实 表 中 是 数据 的 原子 级 。 例 如 ， 单 个 
务 、 一 天 的 快照 等 。 
取 用 于 每 个 事实 表 记 录 的 维 。 典 型 的 维 是 时 间 、 商 品 、 顾 客 、 供 应 商 、 人 仓库、 事务 类 型 和 状 
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取 将 安放 在 事实 表 中 的 度量 。 典 型 的 度量 是 可 加 的 数值 量 , 如 ao77ars_ so7g 和 units_sold。 
由 于 数据 仓库 的 构造 是 一 个 困难 、 长 期 的 任务 ， 它 的 实现 范围 应 当 清 楚 地 定义 。 一 个 初始 的 数 

据 仓库 的 实现 目标 应 当 是 特定 的 、 可 实现 、 可 测量 的 。 这 涉及 时 间 和 预算 的 分 配 ， 一 个 组 织 的 哪些 

子 集 要 建 横 ， 选 择 的 数据 源 数量 ， 提 供 服务 的 部 门 数量 和 类 型 。 

旦 设计 和 构造 好 数据 仓库 ， 数 据 仓 库 的 最 初 使 用 包括 初始 化 装 入 、 首 次 展示 规划 、 幸 训 和 定 

位 。 平 台 的 升级 和 管理 也 要 考虑 。 数 据 仓库 管理 包括 数据 刷新 、 数 据 源 同步 、 规 划 故 障 恢 复 、 管 理 
















































































































































































存 取 控制 和 安全 、 管 理 数据 增长 、 管 理 数据 库 性 能 、 以 及 数据 仓库 的 增强 和 扩充 。 范 围 管理 包括 控 
制 碍 询 、 维 、 报 告 的 数量 和 范围 ， 限 制 数据 仓库 的 大 小 ， 或 限制 进度 、 预 算 和 资源 。 
各 种 数据 仓库 设计 工具 都 可 以 使 用 。 数据 仓库 开发 工具 提供 一 些 操作 , 定义 和 编辑 元 数据 库 (如 
模式 、 脚 本 或 规则 ) ， 回 答 查询 ， 输 出 报告 ， 向 或 由 关系 数据 库 目 录 传送 元 数据 。 规 划 与 分 析 工具 
研究 模式 改变 的 影响 ， 当 刷新 率 或 时 间 窗 口 改变 时 对 刷新 性 能 的 影响 。 








































































































2.3.2 三 层 数 据 仓库 结构 




















“数据 仓库 的 结构 是 什么 样 的 ? ”通常 ， 数 据 仓 库 采用 三 层 结构 ， 如 图 2. 12 所 示 。 

1. 底层 是 数据 仓库 服务 器 ， 它 几乎 总 是 一 个 关系 数据 库 系 统 。“ 如 何 由 该 层 提 取 数 据 ， 创 建 数据 
仓库 ? ”使 用 称 作 网 间 连 接 程 序 的 应 用 程序 ， 由 操作 数据 库 和 外 部 数据 源 ( 如 ， 由 外 部 咨询 者 
提供 的 顾客 侧面 信息 ) 提取 数据 。 网 间 连 接 程 序 由 下 面 的 DBMS 支持 ， 人 允许 客户 程序 产生 SQL 代 
码 ， 在 服务 器 上 执行 。 网 间 连 接 程 序 的 例子 包括 ODBC〈 开 放 数据 库 连 接 ) 和 微软 的 0LE-DB( 数 
据 库 开放 链接 和 组 入 ) ，JDBC (Java 数据 库 连 接 ) 。 

2.， 中间 层 是 0LAP 服务 器 ， 其 典型 的 实现 或 者 是 (1) 关系 OLAP (ROLAP) 模型 ， 即 扩充 的 关系 DBMS， 
它 将 多 维 数据 上 的 操作 映射 为 标准 的 关系 操作 ; 或 者 是 (2) 多 维 0LAP 〈MOLAP) 模型， 即 特殊 

的 服务 器 ， 它 直接 实现 多 维 数据 和 操作 。0LAP 服务 器 在 2. 3. 3 小 节 讨 论 。 

3. 顶层 是 客户 ， 它 包括 查询 和 报告 工具 、 分 析 工 具 、 和 /或 数据 挖 抉 工具 例如， 趋势 分 析 、 预 测 
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操作 数据 库 附加 的 数据 
图 2. 12: 三 层 数 据 仓 库 结 构 
从 结构 的 角度 看 ， 有 三 种 数据 仓库 模型 : 企业 仓库 、 数 据 集 市 、 和 虚拟 仓库 。 





























企业 仓库 : 企业 仓库 搜集 了 关于 主题 的 所 有 信息 ， 跨 越 整个 组 织 。 它 提供 企业 范围 内 的 数据 集 
成 ， 通 常 来 自 一 个 或 多 个 操作 的 系统 ， 或 外 部 信息 提供 者 ， 并 且 是 跨 功 能 的 。 通 常 ， 它 包含 详细 数 
据 和 汇总 数据 ， 其 大 小 由 数 和 干 兆 字 节 ， 到 数 百 千 兆 字 节 ， 数 兆 兆 字 节 ， 或 更 多 。 企 业 数 据 仓 库 可 以 
在 传统 的 大 型 机 上 实现 ， 如 UNIX 超级 服务 器 或 并 行 结构 平台 。 它 需要 广泛 建 模 ， 可 能 需要 多 年 设 
计 和 建造 。 

























































































定 的 主题 。 例 如 ， 一 个 商场 的 数据 集 市 可 能 限定 其 主题 为 顾客 、 商 品 和 销售 。 包 括 


通常 是 汇总 
通常 
的 周期 
长 二 i 
立 的 数据 集 市 中 ， 
或 地 ] 





这 


数据 





























洋 


自 项 向 下 开 
高 ， 需 要 长 时 间 
上 上 疫 计 、 




















对 于 开发 数据 仓库 系统 ， 


ara 


的 。 


讲 ， 可 能 涉及 很 复杂 的 
数据 来 





数据 集 市 : 数据 集 市 包含 企业 范围 








数据 的 一 个 子 集 ， 对 














， 数 据 集 市 可 以 在 低 价格 的 部 门 服务 器 上 实现 ， 基 于 0 
一 般 是 数 以 周 计 ， 而 不 是 数 以 月 

















集成 。 






































上 视 








图 的 集合 。 
esl 








图 被 物化 。 虚 拟 仓 库 易 于 
发 企业 仓库 是 一 利 





开发 ， 














建立 ， 








系统 上 





[si 
Hh 











但 需要 芷 数据 库 服 务 器 

















者， 


FP 的 数据 直接 来 自 企 业 数 据 仓库 。 
为 了 有 效 











具有 剩 

















的 解决 方法 ， 并 能 最 


用 了 到 











并 且 缺 乏 灵活 性 ， 
发 、 配 置 独立 的 数据 集 


散 的 数据 集 市 集成 ， 形 成 一 个 一 致 的 企业 数据 仓库 时 ， 























方法 提供 了 灵活 性 、 





AAA 


低 花 费 ， 




















可 能 











个 














， 在 





息 个 合 





的 集成 问题 


述 相同 的 企业 数 





据 集 市 ， 通 过 网 




















库 是 所 有 仓库 数 




















络 : 











里 短 的 时 间 (如 ， 一 
题 和 可 能 的 应 用 之 间 ， 提 供 企业 范 
尽管 在 企业 数据 仓库 和 部 门 数 据 人 





心服 务 器 集成 不 同 的 数据 集 市 。 








据 的 唯 
































、 两 个 月 





) 内 ， 定 义 一 
一 致 的 、 








用 的 、 

















ee 
集 市 的 开发 中 ， 


导致 问题 。 





据 模型 ， 可 以 并 行 地 实现 独立 的 数据 集 市 和 企业 数据 仓库 。 多 


也 处 理 查 询 ， 
余 能 力 。 
大 限度 地 减少 集成 问题 。 
因为 整个 组 织 的 共同 数据 模型 达到 一 致 是 困难 的 。 自 底 向 


能 快速 回报 投资 。 


它 还 需要 进 一 





于 特定 的 用 户 是 有 用 的 。 














于 限于 选 


沁 














或 者 来 自在 一 





Hoe 





在 数据 集 市 

















的 





IX 或 Windows/NT。 > 
] 计 或 数 以 年 计 。 然 而 ， 如 果 它 们 的 规划 不 是 
根据 数据 的 来 源 不 同 ， ee 
个 或 多 个 操作 的 系统 或 外 部 信息 提 任 
成 局 部 产生 的 数据 。 依赖 的 数据 集 市 
虚拟 仓库 : 虚拟 仓库 是 操作 数据 库 





业 范 围 的 ， 从 
在 独 
个 特定 的 部 门 

















些 可 能 的 汇总 





| 











i ee 
高 层次 的 企业 数据 模型 ， 
图 。 这 个 高 层 模型 将 大 大 减少 今后 





步 提炼 。 




















模型 提炼 


定义 高 层 数 据 模 型 





图 2. 13 数据 仓库 开发 的 








E 荐 方法 














2.3.3 OLAP 服务 器 类 型 : ROLAP、MOLAP、HOLAP 的 比较 


“OLAP 服务 器 的 利 








据 集 市 的 多 维 

















现 必须 考虑 数据 存放 问题 。 











关系 OLAP ROLAP) 服务 器 : 这 是 一 种 中 间 服 务 器 ，4 

















间 。 它们 使 








服务 器 包括 每 个 DBMS 后 端 优化 ， 聚 集 导航 的 逻辑 实 
比 MOLAP 技术 具有 更 大 的 可 规模 性 。 例 如 ，Microstrategy 的 DSS 和 Informix 的 Metacube 都 采用 

















现 ， 附 加 的 工具 





和 类 有 哪些 ? ”逻辑 上 讲 ，OLAP 服务 器 为 商务 用 户 提 供 来 自 
数据 ， 而 不 必 关 心 数据 如 何 存 放 和 存放 如 
OLAP 服务 器 实现 包括 : 











然而 ， 它 费用 











然而 ， 将 分 





2. 13 所 示 。 
在 不 同 的 主 








第 二 ， 基 于 上 





第 三 ， 可 以 构造 分 布 数 
最 后 ， 构 造 人 这 里 ， 
管理 者 ， 仓 库 数 据 分 布 在 一 些 依赖 的 数据 集 市 中 











仓 








企 、 





数据 仓库 或 数 














E 何 处 。 然 而 ，OLAP 服务 器 的 物理 结构 和 实 











介 于 关系 后 端 服务 器 和 用 户 前 端 工具 之 


关系 或 扩充 关系 DBMS 存放 并 管理 数据 仓库 , 而 OLAP 上 











PF 间 件 支 持 其 余音 
和 服务 。 看 来 ， 








部 分 。 ROLAP 
ROLAP 技术 


























ROLAP 方法 >。 





视图 。 
使 用 


多 维 OLAP (MOLAP) 服务 器 : 这 些 服 务 器 通 








它们 将 多 维 
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区 




















数据 方 的 优点 是 














基于 数组 的 多 维 

















存储 引擎 ， 文 持 数据 的 多 维 











能 够 对 预计 算 的 汇总 数据 快速 索引 。 





稀 疏 的 ， 存 储 利用 











规模 怕 
集 保持 在 分 





和 数据 仓库 公司 〔 例 如 








率 可 能 很 低 。 在 这 种 情况 下 ， 应 当 
许多 0LAP 服务 器 采用 两 级 存储 ， 
存储 ; 首 


以 便 处 理 稀 
T 稀 朴 子 方 使 用 压缩 技术 ， 从 而 提高 存储 利用 率 。 








使 月 


注意 ， 
日 稀 玻 久 


























直接 映射 到 数据 方 数 组 结构 。 Arbor 的 Essbase 是 一 个 MOLAP 服务 器 。 
使 用 多 维 数据 存储 ， 如 果 数 据 集 是 

E 阵 压缩 技术 〈 见 2.4 节 )。 

玻 和 稠密 数据 集 : 稠密 子 方 不 变 ， 并 作为 数组 结构 





混合 OLAP (HOLAP) 服务 器 : 混合 OLAP 方法 结合 ROLAP 和 MOLAP 技术 ， 得 益 于 ROLAP 较 大 的 可 











E 和 MOLAP 的 快速 计算 。 
离 的 MOLAP 存储 ! 


























读 环 境 下 ， 在 与 


每 


























弓形 和 雪 





花 模 式 








i 
给 定 的 数据 方 的 模式 的 连接 键 指 





Se 
广 忌 ， 











些 汇总 


























象 级 分 另 








aa 万 month, quarter 和 
基本 事实 级 ， 销 售 日 
它 所 在 的 抽象 级 比 RID 为 1001 和 1002 的 元 组 更 一 般 。 这 里 ， 
。 这 样 ， 显 示 的 do771ars_so7d 是 一 个 聚集 值 ， 代 表 2000 年 10 
或 2000 年 10 月 23 日 


time 值 


储 


Eli? 


和 。 





结构 。 


锻 站 











| 使 用 汇总 
例 2.10 表 2.4 是 一 个 汇总 事 
“< record identifier (RID), 

















实 表 ， 
































期 分 别 是 2000 年 10 
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为 2000 年 10 
而 不 只 是 2000 年 10 月 15 















































表 2.4: 单 





个 基本 和 汇总 事实 表 








RID 


1001 
1002 


5001 


item 


TV 
TV 


TV 





item, ..., 


1 year 定义 销售 日 期 。 

















例如 ，HOLAP 服务 器 允许 将 大 量 详细 
。 微 软 的 SQL Server 7.0 0OLAP 服务 支持 混合 OLAP 服务 器 。 
特殊 的 SQL 服务 器 : 为 了 满足 在 关系 数据 库 中 日 益 增 长 的 OLAP 处 理 























数据 存 


放 在 关系 数据 库 中 ， 而 聚 
































些 关系 数据 库 


的 需要 ， 





Redbrick) 实现 了 特殊 的 SQL 服务 器 ， 提 信 
上 支持 SQL 查询 。 
“那么 ， 数 据 怎样 实际 地 存放 在 ROLAP 和 MOLAP 
放 联 机 分 析 处 3 
所 处 的 抽象 级 
总 事实 表 。 有 
一 抽 












































t 高 级 查询 语言 和 查询 处 理 ， 








在 只 


结构 中 ? ”如 名 称 所 示 ，ROLAP 使 用 关系 表 存 
与 基本 万 体 相关 联 的 事实 表 称 为 基本 事实 表 。 基本 事实 





表 存 放 的 数据 





出 。 聚 集 数据 也 能 存放 在 事实 表 ， 
事实 表 既 存放 基本 事实 表 数据 ， 又 存放 聚集 数据 ， 如 例 2. 10 所 示 。 也 可 以 对 
事实 表 ， 只 存放 聚集 数据 。 
它 既 存放 基本 事实 数据 ， 又 存放 

















， 这 种 表 称 为 汇 








聚集 数据 。 该 表 的 模式 是 


day, month, quarter, year, dollars so1d 六 ， 其 中 























月 15 


day 





month 


的 销售 。 











月 23 日 。 








quarte 
Q4 
Q4 


year 


2000 
2000 


Q4 2000 


day 的 值 被 泛 化 为 all， 


分 别 考虑 RID 为 1001 和 1002 的 元 组 。 它 们 的 数据 在 
和 2000 年 10 


考虑 RID 为 5001 的 元 组 ， 
因此 对 应 的 
月 全 月 的 销 






































特殊 值 all 用 于 表示 汇总 数据 的 子 


dollars_sold 


250.60 
175.00 


45,786.08 





MOLAP 使 用 多 维 





大 部 分 数据 仓库 系统 采用 客户 -服务 器 结构 。 关 系数 据 存 储 总 





点 上 。 多 维 























数组 结构 存放 联机 分 析 处 理 数据 。 例 如 ， 本 章 介绍 的 数据 方 结构 就 是 这 种 数组 





2.4 数据 仓库 实现 


数据 仓库 包含 了 海量 数据 。 要 求 OLAP 服务 器 在 若干 秒 内 























回答 决策 支持 





数据 仓库 系统 要 支持 高 效 的 数据 方 计 算 技术 、 存 取 方 法 和 查询 处 理 技术 。 
我 们 考察 数据 仓库 的 有 效 实现 方法 。 

















的 信息 分 别 可 以 在 www.microstrategy.com 和 www.informix.com 找到 。 


是 驻 留 在 数据 仓库 /数据 集 市 服务 
数据 存储 可 以 驻 留 在 数据 库 服务 器 站 点 ， 或 客户 站 点 。 











a 











2.4.1 数据 方 的 有 效 计算 


多 维 数据 分 析 的 核心 是 有 效 地 计算 多 个 维 
compute cube 操作 及 其 实现 

一 种 方法 是 扩充 SQL， 使 之 包含 
有 子 集 上 计算 聚集 。 

例 2.11 假定 我 们 想 对 AllElectronics 的 销售 创建 




















集合 上 的 聚集 。 








按 SQL 的 术语 ， 这 些 聚 集 称 为 分 组 。 


























compute cube 操作 。compute cube 操作 在 操作 指定 的 维 


的 所 





























个 数据 方 ， 包 含 7tem city，year 和 




















sales_ in ao77ars。 你 可 能 想 用 以 下 查询 分 析 数 据 ; 
四 ”“ 按 item 和 city 分 组 ， 计算 销 售 和 。” 

加 ”“ 按 item 分 组 ,计算 销售 和 。” 

加 ”“ 按 city 分 组 ， 计 算 销 售 和 。” 




















可 从 该 数据 方 计算 的 方 体 或 分 组 的 总 数 是 多 少 ? 取 city，Iitem 和 year 三 个 属性 为 三 个 维 ， 
sales_in_dol1ars 为 度量 ,可 以 由 该 数据 方 计算 的 方 体 总 数 为 2= 8 个。 可 能 的 分 组 是 { (city, ztem 
year), (city, item), (city, year), (cit), (item, (yean), () }， 其 中 ，0 意 指 按 空 分 组 ( 即 ， 
不 对 任何 维 分 组 ) 。 这 些 分 组 形成 了 该 数据 方 的 方 体格 ， 如 图 2. 11 所 示 。 基 本 方 体 包含 所 有 的 维 
citp，1item 利 year， 它 可 以 返回 这 三 维 的 任意 组 合 。 顶 点 方 体 ， 或 0-D 方 体 表 示 分 组 为 空 的 情况 ， 
它 包含 所 有 销售 的 总 和 。 口 



















































































0- 维 (顶点 ) 方 体 
Ccity) (ye 1- 维 方 体 
Ceity,itend Gtemyea ” ”2- 维 方 体 
De an) 3- 维 方 体 


图 








2. 14: 方 体格 ， 组 成 三 维 数据 方 ， 每 一 个 方 体 代表 一 个 不 同 的 分 组 ;基本 





三 个 维 : cz7ztz jitem 和 和 year 
不 包含 分 组 的 SQL 查询 ， 如 “计算 全 部 销售 的 和 ”， 
如 “ 按 city 分 组 ， 计 算 销 售 和 ”， 是 一 维 操作 。 在 维 
个 是 n 维 的 一 个 子 集 。 因 此 ， 方 操作 是 分 组 操作 的 了 维 ; 
例 2. 11 的 数据 方 可 以 定义 为 : 
define cube sales [Litem city, year] : sum(sales_in dollars) 
对 于 了 维 方 ， 包 括 基 本 方 体 总 共有 2 “个 方 体 。 语 名 
compute cube sales 
显 式 地 告诉 系统 ， 计 算 集合 {item，city，year} 的 所 有 
方 体 操作 首先 由 Gray 等 提出 并 研究 [GCB+97] 。 
对 于 不 同 的 查询 ， 联 机 分 析 处 理 可 能 需要 访问 不 同 的 方 体 。 
部 分 方 体 ， 看 来 是 个 好 主意 。 








是 0 维 操作 。 包 含 一 个 分 组 的 SQL 查询 ， 
上 的 一 个 方 操 作 等 价 于 一 组 分 组 语句 ， 每 
泛 化 。 基 于 2. 2. 3 小节 介绍 的 DMQL 语法 ， 



































































































































8 个 子 集 ( 包 提 









































1 空 集 合 ) 的 销售 聚合 


方 体 。 


















































因此 ， 预 先 计 算 所 有 ， 





或 者 至 少 一 













































































预计 算 带 来 快速 的 响应 时 间 ， 并 避免 一 些 见 余 计 算 。 实 际 上 ， 如 果 不 
是 全 部 ， 大 多 数 0LAP 产品 都 借助 于 多 维 聚 集 的 预计 算 。 
然而 ， 如 果 数 据 方 中 所 有 的 方 体 都 预先 计算 ， 所 需 的 存储 空间 可 能 爆炸 ， 特 别 是 当 多 个 维 涉及 








多 个 层次 时 。 
“了 维 数据 方 有 多 少 个 方 体 ? ”如 果 每 个 维 都 没有 分 层 ， 我 们 上 面 已 看 到 ， 7 维 数据 方 的 方 体 总 
数 为 2"。 然 而 ， 在 实践 中 ， 许 多 维 确 实 都 有 分 层 。 例 如 ，time 维 通常 不 只 是 一 层 year， 而 是 一 个 



























































维 的 分 层 结构 攀升 ， 产 生 的 方 体 ) 总 数 是 : 











其 中 ,， < ee 











T= IIw +1) 








于 这 样 一 个 事 



































是 5" = 9.8x10"。 











层次 或 格 ， 如 day 《mopti 《ouarter 《 year。 对 于 维 数据 方 ， 











意识 到 ， 预 计算 并 物化 











部 分 物化 : 方 体 的 选择 计算 
给 定 基 本 方 体 , 方 体 的 物化 有 三 种 选择 : 


预计 算 所 有 方 体 〈 全 物化 ) ; 
物化 ) 。 第 一 种 选择 导致 在 运行 时 计算 昂贵 的 多 维 聚 集 ，j 
储 空间 ， 存 放 所 有 预计 算 的 方 体 。 

方 体 的 部 分 物化 应 考虑 三 个 因素 : (1) 确 
新 时 ， 有 效 地 更 新 物化 
[ 作 负 蓓 下 的 查询 ， 
渐进 更 新 的 开销 和 整个 存储 需求 量 。 选 择 也 必须 考虑 物 到 
产品 采用 局 发 式 方法 进行 方 体 选 择 。 





方 体 ， (3) 在 装 入 和 有 刷 有 

物化 方 体 的 选择 需要 考虑 了 
作 负 荷 的 特点 ， 
引 的 产生 和 选择 。 
































(3) 在 整个 可 外 的 方 体 集中 














数据 方 (或 


























第 三 种 选择 在 存储 空 









































为 尖 化 到 sl1 等 价 于 去 掉 一 个 维 ) 的 层次 数 。 该 公式 
维 最 多 只 有 一 个 抽象 层 出 现在 一 个 方 E 
站 有 4 个 层次， 则 可 产生 的 方 人 总 数 将 

现在 ， 你 可 
并 且 这 些 方 体 很 大 ， 
方 体 中 的 某 些 。 











(1) 不 预计 算 任何 “ 非 基 本 ” 方 体 〈 不 物化 ) ; 
人 

















能 产 4 


能 产生 的 方 体 〈 包 括 沿 着 每 一 





| 基本 方 体 ) 可 能 产生 的 所 有 方 体 是 不 


较 合理 的 选择 是 部 分 物化 ， 即 ， 只 物化 可 的 


(2) 
个 适当 的 子 集 ( 部 分 


























有 些 0LAP 











体 集 ， 其 它 经 常 引 

















的 方 体 。 









































最 后 ， 在 厂 入 和 吊 











旦 选 定 的 方 
定 相关 方 体 ， 如 何 使 
作 。 这 些 问 题 将 在 2 











的 方 体 基 于 它们 。 

体 被 物化 ， 重 要 的 是 在 查 
物化 方 体 中 可 用 的 索引 结构 ， 
.4.3 小 节 讨 论 。 





























询 处 怕 























= 





数据 方 计算 中 多 路 数组 聚集 


然而 ， 为 了 确 
能 存放 在 二 级 存储 器 ， 





们 可 以 排除 沿 着 每 一 


















































保 快速 地 联机 分 析 处 理 ， 我 们 可 














维 的 层次 











] 的 基本 数据 结构 是 多 维 数据 模型 数组 ， 














并 在 需要 时 访问 它们 。 
所 有 方 体 。 ns 
结构 攀升 而 产生 的 方 体 。 
于 关系 0LAP (ROLAP) 使 用 元 组 和 关系 表 作 为 它 的 基本 数据 结构 ， 而 多 维 OLAP (MOLAP) 使 
可 以 预料 ROLAP 和 MOLAP 使 用 很 不 相同 的 方 计算 技术 。 


























ROALP 方 计 算 使 用 如 下 主要 优化 技术 : 














新 期 间 ， 应 当 有 效 地 更 新 物化 的 方 体 ; 应 当 使 









































曼 。 第 二 种 选择 可 能 需要 海量 存 
同和 响应 时 间 二 者 提供 了 很 好 的 折衷。 
定 要 物化 的 方 体 子 集 ; 


(2) 利用 查询 处 理 时 物化 的 






































LE 时 使 用 它们 。 这 涉及 由 大 量 候选 的 物化 方 体 
以 及 如 何 将 0LAP 操作 转换 成 选 定 方 体 上 的 操 


























p 确 


它们 的 频率 ， 和 它们 的 开销 。 此 外 ， 也 要 考虑 工 
数据 库 设计 的 情况 ， 如 索 


一 种 流行 的 方法 是 物化 这 样 的 方 





















































和 bE 
ee 















































里 ”排序 、 散 列 和 分 组 操作 用 于 维 属性 ， 以 便 对 相关 元 组 重新 排序 和 分 簇 。 


@ ”在 人 菏 些 子 涌 集 上 分 旨 


用 的 。 











昌 可 以 由 以 前 计算 的 聚集 计算 新 的 聚集 ， 而 不 必 由 基 本 事实 

“这 些 优化 技术 如 何 用 于 MOLAP? ”ROLAP 按 值 的 寻 
直接 数组 寻 址 ， 
值 的 重新 排序 优化 技术 。 因 此 ， 应 当 














比 之 下 ，MOALP 使 
使 用 ROLAP 的 基于 








ee 


将 数组 分 成 块 。 块 chunk) 是 一 个 子 方 ， 其 大 小 外 
n 维 数 组 坟 















































， 作 为 “部 分 分 组 ”。 













































































免 空 数组 和 
A 















































这 些 “ 部 分 分 组 ” 





对 于 加 快 其 它 











开行 机 制 和 渐进 更 新 技术 。 


ee ede 方 体 可 
开发 一 种 有 效 的 方法 ， 
以 及 计算 所 需 的 时 间 。 为 简单 


计算 数据 方 的 
起 见 ， 我 






































元 ) 所 导致 的 空 





E 够 放 入 方 计算 时 可 














处 理 人 磁盘 和 内 存 中 的 稀 琉 方 。 


2， 通 过 访问 方 单元 〈 即 ， 访 问 方 单元 的 值 ) ， 计 算 聚 集 。 
元 必须 重复 访问 的 次 数 最 小 化 ， 从 而 减少 存储 访问 开销 


得 部 分 聚集 可 以 同时 计算 ， 并 避免 不 必要 的 单元 重新 访问 。 











元 的 寻 址 机 制 。 












































基于 键 的 寻 址 搜索 访问 维 值 。 


了 聚集 的 计算 是 有 





















































发 不 同方 法 ， 











相 


通过 位 置 或 对 应 数组 位 置 的 索引 访问 维 值 。 这 样 ，MOLAP 不 能 
为 MOLAP 基于 数组 的 方 结 构 


用 的 内 存 。 分 块 是 一 种 将 
oo 其 中 ， De Ls 块 被 压缩 ， 以 避 
， 不 含 任何 有 效 数据 的 六 


。 对 于 压缩 的 稀 玻 数组 结构 ， 





这 种 压缩 技术 功 人 强大 ， 足 以 





可 以 优化 访问 单元 的 次 序 ， 使 得 每 个 单 
F 销 。 技 巧 是 使 用 这 种 定 序 ， 使 
























































我 们 通过 一 个 具体 的 例子 ， 解 释 MOLAP 方 结构 的 这 种 方法 。 
例 2. 12 ”考虑 一 个 包含 维 A,B, C 的 3-D 数组 。 该 3-D 数组 被 划分 成 小 的 、 





























于 分 块 技术 涉及 一 些 案 集 计算 的 重合 ， 我 们 称 该 技术 为 数据 方 计算 的 多 路 数组 聚集 。 


基于 内 存 的 块 。 在 该 





例 中 ， 数 组 被 划分 为 64 块 ， 如 图 2. 15 所 示 。 维 4 组 织 成 4 个 相等 部 分 ao aa 和 ax 维和 C 




















都 类 似 地 组 织 成 4 部 分 。 块 1, 2,...， 64 分 别 对 应 于 子 方 aobvc。，arboco,...， 














a3D3C3o 假 定 数 组 的 大 


小 对 于 维 4，B 和 CC 分别 是 40，400，4000。 这 样 ， 每 个 分 划 ，A4，B 和 C 的 大 小 分 别 是 10，100 和 


1000。 





图 2.15: 一 个 3-D 数组 ， 划 分 为 64 块 











完全 物化 对 应 的 数据 方 涉及 计算 定义 该 数据 方 的 所 有 方 体 。 这 些 方 体 包括 




















四 。 基本 方 体 ， 由 45C 定 义 〈 其 它 方 体 直接 或 间接 地 由 它 计算 ) 。 该 方 体 业 已 计算 ， 并 对 应 于 给 定 














的 3-D 数组 。 








国 。 20D 方 体 ，457、4C 和 BC， 分 别 对 应 于 按 48、AC 和 BC 分 组 。 这 些 方 体 必须 计算 。 





四 1-D 方 体 4、B 和 CC， 分 别 对 应 于 按 4、B 和 C 分 组 。 这 些 方 体 必 须 计 算 。 











@ ”0-D《 顶 点 ) 方 体 ， 由 all 定义 ， 对 应 于 按 ( ) 分 组 ， 即 ， 没 有 分 组 。 该 方 体 必 须 计算 。 





























让 我 们 看 一 看 如 何 用 多 路 数组 技术 进行 这 些 计 算 。 存 在 多 种 可 能 的 次 序 ， 








将 块 读 入 内 存 ， 用 于 


计算 方 体 ,考虑 图 2.15 从 1 到 64 标记 的 次 序 。 假 定 我 们 想 计算 BC 方 体 中 的 poco。 我 们 在 “ 块 内 存 ” 
中 为 该 块 分 配 存储 空间 。 通 过 扫描 4B8C 中 的 1 至 4 块 ， 计 算出 块 pco。 妈 ，bocv 单 元 在 za 到 a 上皮 





























集 。 块 内 存 可 以 分 给 下 一 个 块 weo 在 完成 对 4BC 的 4 个 块 ，5 到 8 的 扫描 后 ， 





















































计算 出 bicoo 如 此 继 


续 下 去 ， 可 以 计算 整个 有 C 方 体 。 因 此， 对 于 BC 中 所 有 块 的 计算 ， 一 次 只 需 一 个 有 C 块 在 内 存 。 
































在 BC 方 体 的 计算 中 ， 我 们 将 扫描 64 块 中 的 每 一 块 。“ 为 计算 其 它 方 体 ， 




































































如 4B 和 4C， 有 没有 























办 法 避免 重新 扫描 所 有 的 块 ? ”回答 多 半 是 肯定 的 。 这 正 是 多 路 计算 思想 的 由 来 。 例 如 ， 扫 描 块 1 




















2 方 体 。 即 ， 扫 描 aopoco 时 ， 同 时 计算 三 个 2-D 平面 8C、AC 和 4B 上 的 三 个 








的 聚集 。 换 一 句 话说 ， 当 一 个 3-0 块 在 内 存 时 ， 多 路 计算 向 每 一 个 2-D 平面 聚集 。 
现在 ， 让 我 们 看 看 ， 不 同 的 块 扫描 次 序 和 方 体 计算 对 整个 数据 方 的 计算 效率 的 影响 。 注 意 ， 维 
































〈 即 aopoco) 时 ， (例如 ， 如 上 所 述 ， 为 计算 8C 中 的 2-D 块 goco) ， 同 时 计算 与 aopoco* 有 关 的 所 有 


块 2oco， aoco 和 aopo 王 








A,B8 和 C 的 大 小 分 别 为 40,400 和 4000。 这 样 ,最 大 的 2-D 平面 是 BC 大 小 为 400x4, 000 =1 600, 000); 
次 大 的 2-D 平 面 是 4Q 大 小 为 40x4, 000 = 160, 000); 4B 是 最 小 的 2-D 平 面 ( 大 小 为 40x400 = 16, 000)。 



































假定 以 所 示 次 序 从 1 到 64 扫描 块 。 按 这 种 扫描 次 序 ， 对 于 每 一 次 行 扫 














， 可 以 完全 计算 最 大 









































的 2-0 平面 BC 的 一 块 。 即 ,扫描 包含 所 1 到 4 的 行 后 ，bvco 完 全 被 聚集 ; 扫 措 包含 块 5 到 8 的 行 后 ， 























bico 完 全 被 察 集 ， 如 此 等 等 。 相 比 之 下 ， 完 全 计算 次 2-D 大 平面 4C 上 的 一 块 ， 需 要 扫描 13 块 (给 
定 扫描 次 序 1 到 64) 。 例 如 ， 扫 描 块 1，5，9 和 13 后 ，aoco 被 完全 计算 。 最 后 ， 计 算 最 小 的 2-D 
平面 42 上 的 一 块 需要 扫描 49 块 。 例 如 ， 扫 描 块 1，17，33 和 49 后 ，aopo 被 完全 聚集 。 因 此 ， 为 完 
成 计算 ， 4B 需要 的 扫描 块 数 最 多 。 为 了 避免 将 一 个 3-D 块 多 次 调 入 内 存 ， 根 据 1 到 64 的 扫描 次 序 ， 



































































































































在 块 内 存 中 保持 所 有 相关 的 2-D 平面 所 需 最 小 存储 为 : 40x400〔 用 于 整个 48 平 面 )+40x1, 000《〈 用 


于 4C 平 面 的 一 行 〉》+100x1, 000( 用 于 A 平面 的 一 块 ) = 16, 000+40, 000+100, 000 = 156, 000。 











替换 地 ， 假 定 块 的 扫描 次 序 为 1, 17, 33, 49, 5, 21, 37, 53, . .. 。 即 ， 假 定 扫描 次 序 是 首先 向 48 平 
面 ， 然 后 向 4C 平 面 ， 最 后 向 碟 平 面 聚 集 。 保 持 二 维 平面 在 块 内 存 的 最 小 内 存 需求 量 为 : 400x4, 000 
(用 于 整个 有 平面 ) +40x1, 000 《用 于 4C 平 面 的 一 行 ) +10x100( 用 于 428 平面 的 一 块 ) =1, 641, 000。 
注意 ， 这 是 从 1 到 64 扫描 次 序 所 需 内 存 的 十 倍 多 

类 似 地 , 我 们 可 以 算出 1-D 和 0-D 方 体 多 路 计算 的 最 小 内 存 需求 量 。 图 2. 16 给 出 最 有 效 的 次 序 
和 和 效率 最 差 的 次 序 ， 都 是 基于 数据 方 计算 的 最 小 内 存 需求 。 最 有 效 的 块 次 序 是 1 到 64。 口 

纠 纠 









































































































































| Bp AAO > 
~ x 
Ca (b) 





图 2.16 计算 例 2. 12 三 维 数据 方 的 多 路 数组 聚集 的 两 种 次 序 : 〈a) 数组 聚 
集 最 有 效 的 次 序 (最 小 内 存 需 求 量 156, 000 存储 单位 ) : 〈b) 数组 
聚集 最 低 效 的 次 序 (最 小 内 存 需求 量 1, 641, 000 存储 单位 ) 
在 例 2. 12 中 ， 我 们 假定 有 足够 的 内 存 空间 ， 进 行 一 遍 数 据 方 计算 〈 即 ， 由 一 次 扫描 所 有 块 计 
算 所 有 方 体 ) 。 如 果 内 存 空 zs 间 不 够 ， 完 成 计算 将 需要 更 多 裔 扫描 3-D 数组 。 然 而 ， 在 这 种 情况 下 ， 
块 计算 定 序 的 基本 原则 是 一 样 的 。 
“ROLAP 和 MOLAP 数据 方 计算 ， 哪 个 更 快 ? ”借助 于 适当 的 稀疏 数组 压缩 技术 和 和 仔细 的 方 体 计 
算 定 序 , 实验 表明 MOLAP 数据 方 计算 比 ROLAP (基于 记录 的 关系 ) 计算 快 得 多 。 与 ROLAP 不 同 , MOLAP 
的 数组 结构 不 需要 节省 空间 存放 查找 关键 字 。 此 外 ，MOLAP 使 用 直接 数组 寻 址 ， 这 比 ROLAP 基于 关 
键 字 的 寻 址 快 。 事 实 上 ， 对 于 ROLAP 不 直接 由 表 计 算 ， 而 把 表 转 换 成 数组 ， 由 数组 进 
行 数据 方 计算 ， 然 后 将 结果 转换 成 表 甚 至 还 要 快 些 。 然 而 ， 这 仅 对 维 数 相对 较 少 的 数据 方 成 立 ， 因 
为 要 计算 的 方 体 个 数 随 维 数 指数 增长 。 a 灾难 ， 最 近 的 研究 提出 仅 计算 冰山 方 
(iceberg cube) 。 这 种 方 仅 存 放 这 样 的 方 分 划 ， 分 划 中 每 个 单元 的 聚集 值 (如 ，count ) 大 于 某 
个 最 小 支持 度 或 出 现 阔 值 。 
“如 果 我 想 添加 一 些 新 数据 到 预计 算 的 方 中 , 或 由 其 中 存放 的 数据 淘汰 一 些 ,怎么 办 ? ”对 此 ， 
己 经 提出 了 一 些 有 效 的 渐 增 更 新 方法 ， 允 许 向 预计 算 的 方 添加 或 由 预计 算 的 方 淘汰 数据 ， 而 不 必 重 
新 计算 方 。 这 种 更 新 的 具体 方法 作为 习题 留 给 读者 。 



























































































































































































































































































































































































































































2.4.2 索引 OLAP 数据 














为 提供 有 效 的 数据 访问 ， 大 部 分 数据 仓库 系统 支持 索引 结构 和 物化 视图 〈 使 用 方 体 ) 。 选 择 方 
体 物化 的 方法 前 一 节 已 讨论 。 本 小 节 ， 我 们 考察 如 何 使 用 位 图 索引 和 连接 索引 对 0LAP 数据 进行 索 
引 。 









































位 图 索引 方法 在 0LAP 产品 中 很 流行 ， 因为 它 允 许 在 数据 方 中 快速 检索 。 位 图 索引 是 record_71D 
(RID 表 的 一 种 替代 表示 。 在 给 定 属性 的 位 图 索引 中 ， 属 性 域 中 的 每 个 值 vy， 有 一 个 不 同 的 位 向 量 
pr。 如 果 给 定 的 属性 域 包含 n 个 值 ， 则 位 图 索引 中 每 项 需要 hn 位 ( 妈 ， 位 向 量 ) 。 如 果 数 据 表 中 
给 定 行 的 属性 值 为 记 则 在 位 图 索引 的 对 应 行 ， 表 示 该 值 的 位 为 1， 该 行 的 其 它 位 均 为 0。 

例 2.13 在 AllElectronics 数据 仓库 中 ,假定 维 ztem 在 顶层 有 4 个 值 ( 代 表 商 品类 型 ): “jpome 
entertainment”, “computer”, “phone” 和 “security*。 每 个 值 (例如 ，“computer”) 用 的 位 图 索 
引 表 的 一 个 位 向 量 表示 。 假定 数据 方 存放 在 一 个 具有 100, 000 行 的 关系 表 中 。 由 于 item 的 域 有 4 
个 值 , 位 图 索引 需要 4 个 位 向 量 (或 表 ), 每 个 2 000 位 。 图 2.17 给 出 了 一 个 包含 维 item 和 city 
的 基本 (数据 〉 表 和 它 映射 到 每 维 的 位 图 索引 。 


基本 表 JTtem 位 图 索引 表 City 位 图 索引 表 
































































































































































































































RID Tte | cit RID H C 民 S 
Nn 
R1 h V R1 1 0 0 0 
R2 C V R2 0 1 0 0 
R3 尼 V R3 0 0 1 0 
R4 S V R4 0 0 0 1 
R5 H 外 R5 1 0 0 0 
R6 C T R6 0 1 0 0 
R7 P R7 0 0 1 0 
R8 S 于 R8 0 0 0 1 
注 : 了 代表 “home entertainment”,，C 代表 “computer”,P 代表 “phone”， 


V 代表 “Vancouver”，T 代表 “Toronto”。 


与 散 列 和 树 索引 相 比 ， 
聚集 操作 都 变 成 了 位 算术 运算 ， 大 大 减少 了 运行 时 
F 销 。 对 于 基数 较 高 的 域 ， 使 用 压缩 技术 ， 这 种 方法 可 以 接受 。 








大 降低 了 





空间 和 了 /0 首 
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二 调 





2.17 使 用 位 医 
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有 有 
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R2 
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R8 








OO OO OO 一 
一 OO OO OD 











索引 索引 0LAP 数据 


S 代表 “secrity”， 





图 索引 有 优势 。 对 于 基数 较 小 的 域 它 特别 有 用 ， 因 
于 字符 串 可 以 用 单个 位 表示 ， 位 图 索引 大 

















为 比较 、 连 接 、 和 














连接 索引 方法 





的 流行 源 于 关系 数据 库 查 询 处 理 。 传 统 的 索引 将 给 定 列 上 的 值 映 射 到 具有 该 值 的 行 表 上 。 与 之 相反 ， 








连接 索引 登记 来 

















和 上 连接 ， 则 连接 索引 记录 包含 (RID 57 乃 对 ， 





因 





























外 部 关键 字 和 与 之 匹配 的 主 关键 字 的 了 


数据 仓库 的 星 形 模式 模型 使 得 连接 索引 特别 吸引 人 ， 
的 外 关键 字 和 维 表 的 了 
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实 表 








子 方 。 
































基 系 ， 连接 索引 特别 有 用 











两 个 关系 数据 库 的 可 连接 行 。 例 如 ,如果 两 个 关系 R(RID, 4 和 5S(B S71D 在 属性 
其 中 RID 和 S71D 分 别 为 来 自 R 和 5S 的 记录 标识 符 。 


此 ， 连 接 索 引 记 录 识别 可 连接 的 元 组 ， 而 不 费事 地 执行 连接 操作 。 对 于 维护 来 





o 








因为 











事实 表 和 它 对 应 允 














A 





























可 连接 的 关系 的 




















E 表 的 连接 属性 是 事 











FE 关键 字 。 连 接 索 引 维 护 域 的 属性 值 ( 例 如 ， 在 一 个 
对 应 行 的 联系 。 连 接 索 引 可 以 跨越 多 维 ， 形 成 复合 连接 索引 。 我 们 可 以 使 月 





E 表 内 )〉 和 事实 表 的 
日 连接 索引 识别 感 兴趣 的 




















例 2.14 在 例 2.4 中 ,我 们 定义 了 AllElectronics 的 一 个 星 形 模式 ， 形 如 “sales starl time, 


item, branch, Jocation|: 


E 表 之 间 联 系 的 连接 索引 联系 如 








和 jtem 和 














事实 表 中 的 元 组 T57， 











T459 连接 。 对 应 的 连接 索引 表 如 图 























图 2. 18 所 示 。 例 如 ， 





dollars sol1d = sum(sales 1n dol11ars)”。sales 事实 表 与 Jocation 











Jocation 





E 表 的 值 ”Nain Street 与 
































2. 19 所 示 。 


T238 和 T884 连接。 类似 地 ，jtem 维 表 的 值 ”*Sony-7 玉 与 事实 表 的 元 组 T57 和 














假定 在 数据 方 中 有 360 个 时 间 值 ，100 个 商品 ，50 个 分 店 ，30 个 地 点 ，100 万 个 销售 元 组 。 如 

















果 事实 表 ， 





只 记录 了 30 种 商 
行 额 外 的 I/0， 将 寻 











口 
HHy， 























其 余 的 70 中 商品 显然 不 参与 连接 。 如 果 不 使 
有 实 表 的 连接 部 分 和 维 表 一 起 读 入 。 口 








“ 在 一 个 关系 模式 中 形成 主 关键 字 的 属性 集 是 另 一 个 关系 模式 的 外 关键 字 。 

















连接 索引 ， 必 须 执 














图 2.18 ” sales 事实 表 与 Jocation 和 7tem 维 表 之 间 的 链接 


location/sales item/sales 
































连接 索引 表 连接 索引 表 
location sales key item sales ke 
y 
Main Street T57 Sony-TV T57 
Main Street T238 Sony-Tv T459 
Main Street T884 CE eh 











location/item/sales 
链接 两 个 维 的 连接 索引 表 


location item sales key 




















Main Street Sony-TV T57 





























2 19 基于 图 2. 18 的 sales 事实 志 王 Jocation 和 7tem 的 维 
表 之 间 的 链接 的 连接 索引 表 

为 进一步 加 快 查询 处 理 ， 我 们 可 以 将 连接 索引 与 位 图 索引 集成 ， 形 成 位 图 连接 索引 。Microsoft 
SQL server 和 Sybase IQ 支持 位 图 索引 ，0racle 8 使 用 位 图 和 连接 索引 。 












































2.4.3 OLAP 查询 的 有 效 处 理 

















物化 方 体 和 构造 OLAP 索引 结构 ， 目 的 是 加 快 数据 方 中 的 查询 处 理 。 给 定 物化 的 视图 ， 查 询 处 
理应 按 如 下 步骤 进行 : 

1. 确定 哪些 操作 应 当 在 可 利用 的 方 体 上 执行 : 这 涉及 将 查询 中 的 选择 、 投 影 、 上 卷 (分 组 ) 和 下 

钻 操作 转换 成 对 应 的 SQL 和 /或 0LAP 操作 。 例 如 ， 数 据 方 上 的 切片 和 切 块 可 能 对 应 于 物化 方 体 

上 的 选择 和 /或 投影 操作 。 

2.， 确定 相关 操作 应 当 使 用 哪些 物化 的 方 体 : 这 涉及 找 出 可 能 用 于 回答 查询 的 所 有 物化 方 体 ， 使 用 

方 体 之 间 的 “统治 ”联系 知识 ， 剪 去 上 集合 ， 估 计 使 用 剩余 物化 方 体 的 代价 ， 并 选择 代价 最 低 

的 方 体 。 

例 2.15 假定 我 们 为 AllElectronics 定义 了 一 个 数据 方 ， 形 式 为 “salesltime, itenm, 
Jocationj]: sum(sales in ao77ars)”。 所 用 的 维 层 次 ， 对 于 time 是 day < month < quarter < year, 
对 于 item 是 item name < brand < type， 而 对 于 1ocation 是 street <city < province or state 
< countryo 

假定 所 处 理 的 查询 在 {brandq ，province_or_cit 力 上， 选择 常量 为 “year = 2000”。 还 假定 有 四 
个 物化 的 方 体 可 用 ， 它 们 是 

方 体 1: {item name, city, year} 

方 体 2: {brand, country, year} 

方 体 3: { 
方 体 4: {jtem name, province or state} ， 其 中 year = 2000 
“以 上 四 个 方 体 ， 选择 哪 一 个 处 理 查询 ? ” 较 细 粒度 的 数据 不 能 由 较 粗 粒度 的 数据 产生 。 这 样 ， 
不 能 使 用 方 体 2， 因 为 country 是 比 prorznce_ or state 更 一 般 的 概念 。 可 以 用 方 体 1，3 和 4 处 理 
查询 ， 因 为 〈1) 它们 与 查询 具有 相同 的 维 集合 ， 或 是 其 超 集 ， (2) 查询 中 的 选择 可 以 缠 涵 在 方 体 
的 选择 中 ; (3) 与 branqd 和 province or state 相 比 ， 这 些 方 体 中 的 item 和 Jocation 的 抽象 层 
在 更 细 的 层次 。 

“如 果 用 于 处 理 查 询 , 如 何 比较 每 个 方 体 的 代价 ”” 看 来 , 使 用 方 体 1 代价 最 高 , 因为 7tem_name 
和 city 分别 都 在 比 查 询 中 给 出 的 hranq 和 province_or_state 更 低 的 概念 层 。 如 果 没 有 许多 year 
值 与 item 相关 联 ， 而 对 于 每 个 brand 值 有 许多 item name 值 ， 则 方 体 3 将 比方 体 4 小 一 些 ， 因 此 
应 当选 择 方 体 3 来 处 理 查 询 。 然 而 ， 如 果 方 体 4 有 有 效 的 索引 可 用 ， 方 体 4 可 能 是 较 好 的 选择 。 因 
此 ， 需 要 一 些 基 于 代价 的 估计 ， 以 确定 应 当 使 用 哪个 方 体 集 处 理 查询 。 口 
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brand, province or state, year} 




































































































































































































































































使 月 





引 。 




















稠密 大 





明 数 组 结构 ， 对 于 稀疏 数组 使 用 稀 玻 久 
MOLAP 查询 ， 





为 处 理 
两 级 方法 增加 





2.4.4 元 数据 存储 


对 于 给 定数 据 仓 库 的 数据 名 和 定义 ， 创 建 元 数据 。 





“什么 是 

































































于 MOLAP 服务 器 的 存储 模型 是 多 维 数组 ， 前 ? 
务 器 存储 结构 。 数 据 方 的 简洁 数组 表示 
为 了 有 效 地 存储 和 处 型 
1 稀 朴 数组 所 用 的 存储 结构 可 能 不 同 ，MOLAP 查询 处 理 最 好 采 




















tk 有 
E， 应 当 采 用 稀 玻 矩阵 



































E 阵 
首先 确定 一 、 二 维 


























出 的 多 维 查 询 直 接 映射 到 提供 





直接 寻 址 能 力 的 服 











当 数 据 稀 玻 时 ， 存 储 
生计 有 六 号 
二 级 方法 : 
日 可 以 用 B+ 树 索引 。 


很 好 的 索引 性 质 ， 但 
和 数据 压缩 技术 (2. 



































结构 。 二 维 稠密 数 纪 
币 密 数组 ， 然 后 对 这 些 数 























了 存储 的 利用 率 ， 而 不 轩 

















































































































牲 直接 寻 址 能 力 。 







































































































































































利用 率 很 





有 密 


对 于 而 








元 数据 ? ”元 数据 是 关于 数据 的 数据 。 在 数据 仓库 中 , 元 数据 是 定义 仓库 对 象 的 数据 。 
它 元 数据 包括 对 提取 数据 添加 的 时 间 标 签 、 提 











无 。 


数组 


昌 使 用 传统 的 索引 结构 建立 索 
































取 数 据 的 源 、 被 数据 清理 或 集成 处 理 添 加 的 字段 等 。 
元 数据 的 存储 应 当 包括 : 
昌 ”数据 仓库 结构 的 描述 ， 包 括 仓库 模式 、 视 图 、 维 、 层 次 结构 、 导 出 数据 的 定义 ， 以 及 数据 集 市 
的 位 置 和 内 容 。 
@@ ”操作 元 数据 ， 包 括 数据 血统 (移植 数据 的 历史 和 用 于 它 的 转换 序列 ) ， 数 据 流通 (主动 的 、 档 
案 的 、 或 净化 的 ) ， 和 管理 信息 仓库 使 用 统计 、 错 误 报告 、 审 计 跟 踪 ) 
时。 汇总 用 的 算法 ， 包 括 度量 和 维 定义 算法 ， 数 据 押 处 粒度 、 分 割 、 主 题 领域 、 聚 集 、 汇 总 、 预 定 
义 的 查询 与 报告 。 
昌 ”由 操作 环境 到 数据 仓库 的 映射 ,包括 源 数据 库 和 它们 的 内 容 、 网 关 描 述 、 数 据 分 审 、 数 据 提 取 、 
清理 、 转 换 规则 和 缺 省 、 数 据 刷 新 和 剪裁 规则 、 安 全 《〈 用 户 授权 和 存 取 控 制 ) 。 
”关于 系统 性 能 的 数据 ， 除 刷新 、 更 新 定时 和 调度 的 规则 与 更 新 周期 外 ， 还 包括 索引 和 改善 数据 
存 取 和 提取 性 能 的 方法 。 
加 ”商务 元 数据 ， 包 括 商 务 术语 和 定义 、 数 据 拥有 者 信息 和 收费 策略 。 
数据 仓库 包含 不 同 级 别 的 综合 ， 元 数据 是 其 中 一 种 类 型 。 其 它 类 型 包括 当前 的 细节 数据 (几乎 
是 在 磁盘 上 )， 老 的 细节 数据 (通常 在 三 级 存储 器 上 ) ， 稍 加 综合 的 数据 ， 和 高 度 综 合 的 数据 (可 
. 也 可 以 不 物理 地 入 仓 ) 。 
与 数据 仓库 中 的 其 它 数据 相 比 ， 元 数据 扮演 很 不 相同 的 角色 ， 并 且 由 于 种 种 原因 ， 也 是 重要 的 
角色 。 例 如 ， 元 数据 用 作 目 录 ， 帮 助 决策 支持 系统 分 析 者 对 数据 仓库 的 内 容 定位 ， 当 数据 由 操作 环 
境 到 数据 仓库 环境 转换 时 ， 作 为 数据 映射 指南 ， 对 于 汇总 的 算法 ， 它 也 是 指南 。 汇 总 算法 将 当前 细 


节 数 据 汇 总 成 和 








加 综合 的 数据 ， 或 将 稍 加 综合 的 数据 汇总 成 高 度 综 合 的 数 ] 














《 即 ， 存 放 在 磁盘 上 ) 。 
2.4.5 数据 仓库 后 端 工 具 和 实用 程序 


ZI 
CC 


数据 仓库 系统 使 用 后 端 工具 和 实用 程序 来 加 载 和 刷新 它 的 数据 。 





数据 提取 : 通 


数据 清理 : 检测 数据 中 的 错误 ， 可 能 时 订 了 
格式 转换 成 数据 仓库 格式 。 


数据 变换 : 将 
装 入 : 排序 、 








常 ， 由 多 个 、 异 种 、 外 部 





ee 
加 固 、 计 算 视 








图 、 


综合 、 








刷新 : 传播 


除 清理 、 


数据 清 



































时 不 



































绍 。 
纪 





日 节 ， 建 议 有 兴趣 的 读者 查 


装 入 、 刷 新 和 
[数据 变换 
1 于 我 们 主要 的 兴趣 在 于 数据 仓库 技术 与 数据 挖掘 
阅 数据 仓库 技术 的 书籍 。 


数据 源 到 数据 仓库 的 更 新 。 
外 ， 数 据 仓库 系统 通常 提供 

















元 数据 定义 工 























数据 源 收 集 数据 。 
E 它 们 。 

















检查 整体 性 ， 并 建立 索引 和 划分 。 











时 















































四 
丰 











提高 数据 质量 


三 王 4 








从 而 提高 数据 挖掘 结果 质量 的 重要 步 又 。 









































过 间 的 联系 ， 我 们 将 不 深入 讨 ; 





组 数据 仓库 维护 工具 。 


将 在 第 3 章 
论 这 些 工 














据 。 元 数据 应 当 持久 存放 


这 些 工 具 和 机 制 包含 以 下 功 


章 介 


只 的 





2.5 数据 方 技术 的 进一步 发 展 
本 节 ， 你 将 学 习 数据 方 技术 的 进 一 


据 异 常 将 自动 被 检测 出 来 ， 


粒度 




















2.5.1 数据 方 发 现 驱 动 的 探查 


正如 我 们 在 本 章 看 到 的 ， 可 以 将 数据 汇总 并 存放 在 OLAP 系统 的 数据 方 中 。 











通过 使 用 一 些 诸如 下 钻 、 上 卷 、 切 片 、 





可 以 
中 的 
为 令 
































户 
于 菏 














例外 。 


长 


的 例 





用 于 帮助 用 户 探查 数据 ， 但 这 一 过 程 不 是 自动 的 。 














步 发 展 。2. 5. 1 小 节 介 绍 数 据 方 发 现 驱 动 的 探查 ， 这 里 ， 数 











开 以 可 视 化 的 方式 标 
上 多 个 依赖 聚集 的 复杂 数据 挖掘 查询 。 其 它 进展 在 2. 5. 3 小 节 介 





识 给 


MA 一 口 















































寺 产 ] 


例外 和 异常 。 这 种 假定 驱动 的 探查 有 很 多 缺点 。 搜 索 空 


人 了 惧 的 任务 。 高 层次 的 察 集 可 能 指 不 
方 的 一 个 子 集 〈 如 一 个 切片 ) 月 
堆积 如 山 的 数据 值 使 得 用 户 容 
发 现 驱 动 的 探查 是 一 种 替代 的 方法 。 这 里 ， 预 计算 的 度量 指 

这 种 度量 为 例外 指示 符 。 直 观 














的 数据 分 析 过 程 。 
种 统计 模型 ， 




















闻 可 


户 。2. 5. 2 小 节 介 














绍 多 特征 方 ， 























于 涉及 多 











切 块 等 OLAP 操作 ， 检 索 方 中 感 兴趣 的 模式 。 尽 管 这 些 工具 
eh es es 
能 非常 大 ， 使 得 人 工 检 查 地 数据 成 





























以 下 我 们 称 





易 错过 数据 














Eb 





它 显 著 地 不 同 于 预期 
如 果 商 品 销售 数据 分 析 揭 示 ， 与 其 它 所 有 
然而 ， 如 果 考 虑 商品 维 ， 这 不 是 一 个 
长 。 该 模型 考虑 隐藏 在 数据 方 的 所 有 分 组 聚集 中 的 











外 程度 (基于 预 





有 效 
动 的 














探查 。 





























有 三 种 度量 用 作 例 外 指示 符 ， 





异 程度 。 对 于 所 有 的 聚集 层 ， 计 算 
1. SelfExp: 指示 相对 于 同一 聚集 层 的 其 它 单 元 的 奇异 程度 。 





汉化 


聚集 。 








计算 的 例外 指示 符 ) 
的 算法 。 例外 指示 符 的 计算 可 以 与 方 构造 














FP 的 例外 。 















































帮助 标识 数据 异 
这 些 度量 ， 并 将 它们 关联 有 











网 外 ， 











例外 。 





因为 在 12 








低层 次 的 异常 ， 
日 户 也 常常 面 对 大 量 需 要 考察 的 数据 值 。 














如 果 使 














出 数据 例外 ， 寿 


趣 的 模式 。 


用 假定 





用 户 或 分 析 者 可 以 





图 去 识别 数据 





即使 查看 





驱动 的 探查 ， 























月 份 








》 其 











ee 这 对 时 间 维 
它 商 品 的 销售 也 有 类 似 的 增 














可 视 方 〈 如 ， 使 用 背 





























例 2.16 假定 我 们 想 


time 和 region。 














sutn of sales 

















P 解 释 。 
县 分 析 AllElectronics 的 





。 这 些 度量 指 日 
每 















































个 六 

















2. InExp: 指示 该 单元 之 下 某 处 的 奇异 程度 ， 如 果 我 们 由 它 下 钻 的 话 。 


3. PathExp: 指示 由 该 单元 的 每 条 下 钻 路 径 的 奇异 程度 。 
这 些 度量 的 用 法 在 下 面 的 例子 


























月 销售 

















始 ， 你 研究 每 个 月 在 所 有 














商品 在 所 有 





month 








, 按 百 分 比 与 上 
地 区 的 聚集 数据 ， 如 图 





E 所 有 的 聚集 级 指导 
也 ， 例 外 是 一 个 数据 方 单元 值 ， 基 
直 。 该 模型 考虑 单元 所 属 的 所 有 维 上 度量 值 的 变化 。 例 如 ， 






































看 来 是 一 个 











背景 色 ) 反映 每 个 单元 
。 如 2. 4.1 小 节 讨 论 的 ， 对 于 方 结构 ， 业 已 提出 了 一 些 


E 迭 ， 使 得 数据 方 的 总 体 结构 更 有 效 ， 更 利于 发 现 驱 





























元 。 它 们 是 : 





8 单元 中 的 量 相对 于 期 


望 值 的 奇 














月 比较 。 所 涉及 的 维 是 7tem 
2. 20 所 示 。 


本 
| Jan | Fob Mar | Apr | May| Jun | Jul | Avg | Sep | Oct [Nov |Dec 





ma | lle | fo a | 


图 2.20 销售 随时 间 变 化 
为 观察 例外 指示 符 ， 你 在 屏幕 
成 可 视 提 示 ， 显 示 于 每 个 单元 。 每 个 单元 的 背景 色 基 ] 
的 周围 ， 方 框 的 粗细 和 颜色 是 其 InExp 值 
深 ， 例 外 的 程度 越 高 。 例 如 ， 七 、 八 、 九 月 销售 的 黑光 


























上 单 ; 
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3%0 





标记 高 亮度 的 例外 按钮 。 这 将 SelfExp 和 InExp 的 值 转换 


























下 钻 可 以 沿 着 item 或 region 维 进行 
































的 单 





元 ， 并 触发 一 个 路 经 例外 模块 。 





的 奇 


异 程度 。 假 定 沿 着 7tem 的 路 经 包含 更 多 例外 。 




















该 模块 根据 





F 它 的 SelfExp 值 。 此 外 ， 

















一 个 方 # 








EE 画 在 单元 




















的 函数 。 粗 的 框 指示 高 InExp 值 。 在 两 种 情况 下 ， 颜 色 越 





























昌 框 告诉 用 户 通过 下 钻 ， 探 查 这 些 和 





元 的 低层 


“ 哪 一 条 路 经 更 例外 ? ”为 找 出 它 ， 你 选择 一 个 感 兴 
该 值 反 映 路 经 




















元 的 PathExp 值 ， 














为 每 个 维 








EF 色 。 








Avg. sales 


month 





item 


Jan 


Feb 


Mar 


Apr 


May 


Jun 


Jul 


Aug 


Sep 


Oct 


Nov 





Sony b/w printer 








9% 








一 8% 


2% 





一 5% 





14% 





-4% 





0% 








-13% 








一 15% 

































































Sony color printer 0% 0% 3% 2% | 4% |-10% |-13% | 0% |4% -6% | 4% 
HP b/w printer —2% | 1% 2% 3% | 8% -12% | -9% | 3% —3% | 6% 
0% 
HP color printer 0% 0% -2% | 1% | 0% | -=1% | =7% | -2% |1% 一 4% | 1% 
IBM desktop computer 1% -2% | -1% | -1% | 3% —10% 1% —4% | —1% 
3% 4% 
IBM laptop computer 0% 0% -1% | 3% | 4% | 2% |-10% | -2% |0% -9% | 3% 
Toshiba desktop computer -2% | -5% | 1% 1% | -1% | 1% 5%0 | -3% | -5% | -1% | -1% 
Toshiba laptop computer 1% 0% 3% 0% —2% —2% 一 5% | 3% |2% —1% 
0% 
Logitech mouse 3% -2% | -1% | 0% | 4% | 6% |-11% | 2% |1% —4% 
0% 
Ergo-way mouse 0% 0% 2% 3% 1% | -2% | -2% | -5% | 0% -5% | 8% 


















































图 2.21 ”商品 -时 间 组 合 的 销售 变化 


沿 着 7tem 下 钻 导 致 图 2. 21 所 示 方 切片 ， 给 出 每 种 商品 各 时 间 段 的 销售 。 此 时 ， 提 供 了 许多 不 
同 的 销售 值 ， 供 你 分 析 。 通 过 单 击 高 亮度 例外 按钮 ， 显示 可 视 提示 ,将 注意 力 引 向 例外 。 考 虑 “Sony 
b/w printer” 九 月 份 41% 的 销售 差 。 该 单元 具有 深 色 背景 ， 指 示 一 个 高 SelfExp 值 ， 意 味 该 单元 是 
一 个 例外 。 现 在 考虑 “Sony b/w printer” 的 十 一 月 份 -15% 的 销售 差 和 十 二 月 份 -11% 的 销售 差 。 十 
二 月 份 -11% 值 被 标记 为 一 个 例外 ， 而 -15% 没 有 ， 尽 管 -15% 比 -11% 的 偏差 更 大 。 这 是 因为 例外 指示 符 
戎 虑 一 个 单元 所 在 的 所 有 维 。 注 意 ， 十 二 月 份 大 部 分 其 它 商品 的 销售 具有 一 个 大 的 正 值 ， 而 十 一 月 
份 不 是 。 这 样 ， 通 过 考虑 单元 在 方 中 的 位 置 ， “Sony b/w printer” 十 二 月 份 的 销售 差 是 一 个 例 
外 ， 而 该 商品 十 一 月 份 的 销售 差 不 是 。 

InExp 值 可 以 用 来 指示 在 当前 层 不 可 见 的 、 较 低层 上 的 例外 。 考 虑 七 月 和 九 月 “IBM desktop 
computer” 所 在 的 单元 ， 两 个 周围 都 有 黑 粗 框 ， 指 明 它 们 具有 高 InExp 值 。 你 可 能 决定 沿 region 
下 钻 ， 进 一 步 探 查 “IBM desktop computer” 的 销售 。 按 地 区 的 销售 差 如 图 2. 22 所 示 ， 其 中 高 亮 
度 例 外 选项 被 调用 。 所 显示 的 可 视 化 提示 使 得 我 们 立即 注意 到 “IBM desktop computer ”销售 在 南 
部 地 区 的 例外 。 那 里 ， 七 月 和 九 月 份 的 销售 分 别 下 降 39% 和 34%。 在 我 们 观察 图 2. 21 按 商 品 - 时 间 
分 组 、 按 地 区 聚集 的 数据 时 ， 这 些 细节 上 的 例外 远 非 显 而 易 见 的 。 因 此 ， 对 于 搜索 数据 方 的 较 低 层 
次 上 的 例外 ，InExp 值 是 有 用 的 。 由 于 图 2. 22 中 没有 其 它 具 有 高 InExp 值 的 单元 ， 你 可 能 上 卷 ， 回 
到 图 2. 21 的 数据 ， 并 选择 男 一 个 单元 ， 由 它 下 钻 。 按 照 这 种 方法 ， 可 以 使 用 异常 指示 符 ， 指 导数 
局 中 有 趣 异 常 的 发 现 。 口 
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Avg. Month 

sales 

Region Jan | Feb Mar | Apr | May Jun | Jul | Aug | Sep Oct | Nov | Dec 

North -1% | -3% | -1% | 0% 3% 4% | -7% 1% 0% | -3% | 一 3% 

South -1% | 1% | -9% | 6% | -1% 1 

East -1% | -2% | 2% | -3% 1% 18%| -2% | 11% | -3% | -2% | 一 1% 

West 4% 0% | -1% | -3% 5% 19% | -18%| 8% 5% | -8% 1% 

图 2.22 每 个 地 区 “IBM desktop computer” 销 售 变化 
“如 何 计算 异常 值 ? ”SelfExp，InExp 和 PathExp 度量 是 基于 表 分 析 的 统计 方法 。 它 考虑 给 定 
单元 值 涉及 的 所 有 分 组 〈 聚 集 ) 。 一 个 单元 值 是 否 例外 要 根据 它 与 它 的 期 望 值 相差 多 少 判 定 ; 这 里 





























期 望 值 按照 下 面 介绍 的 统计 模型 确定 。 单 元 的 值 和 它 的 期 望 值 之 间 的 差 称 为 余 量 。 直 观 地 ， 余 量 
大 ， 单 元 的 值 越 例 外 。 为 比较 余 量 值 ， 需 要 按照 与 余 量 相关 的 期 望 标准 差 对 值 定 标 。 这 样 ， 一 个 
元 被 视 为 例外 ， 如 果 它 的 定 标 余 量 值 超过 一 个 预定 的 阔 值 。SelfExp，InExp 和 PathExp 度量 就 是 基 
于 这 种 定 标 余 量 。 

一 个 给 定单 元 的 期 望 值 是 该 给 定单 元 高 层 分 组 的 函数 。 例 如 ， 给 定 一 个 具有 三 个 维 4、B8 和 C 
的 方 , 在 4 的 第 7 个 位 置 、8 的 第 j 个 位 置 、C 的 第 k 个 位 置 的 单元 的 期 望 值 是 y，yh， 7 ， 7 
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数 。 其 








X77” ，YA 和 yx 的 函 























， 这 些 y 是 所 用 统计 模型 的 系数 。 系 数 反 映 了 在 较 多 细 证 
一 个 单元 的 例外 性 建立 在 它 下 面 的 值 


差异 ， 是 基于 观察 高 层 聚 集 的 一 般 印象 。 这 样 ， 











上 。 因 此 ， 当 看 到 例外 时 ， 





j 户 自然 通过 下 钻 进 一 





“对 于 发 现 驱 动 的 探查 ， 


诸如 sun 与 count 等 聚集 




















方 的 








技术 ， 各 2.4. 了 小 节 讨 论 的 多 路 数组 联 集 技术 。 第 一 裔 包括 模型 符合 。 出 
因为 所 涉及 的 计算 是 类 似 的 。 








并 用 于 计算 标准 余 量 。 这 一 遍 可 
量 ， 计 算 Self 


探查 ， 数 据 方 和 


后 
尔 里 o 



































的 计算 可 以 有 效 地 


Exp，InExp 和 PathExp 的 值 。 





步 探 查 例外 。 








民 上 值 的 
的 例外 程度 之 























如 何 有 效 地 构造 数据 方 ? ”该 计算 由 三 遍 组 成 。 
值 的 计算 。 在 这 些 聚 集 值 上 ， 将 发 现 例外 。 


第 一 


第 一 遍 涉 及 定义 数据 
些 计算 数据 方 的 有 效 

















se: 

















以 与 第 一 裔 重 迭 ， 


























5 步 要 


三 遍 基 于 标准 余 















































进行 。 


2.5.2 多 粒度 上 的 复杂 聚集 : 多 特征 方 


数据 方 利于 
方 。 多 特征 方 计算 复杂 查询 ， 这 些 


回答 数据 挖掘 查询 ， 





些 查 i 


询 涉 及 多 粒度 | 























有 用 ， 许 多 复杂 的 数据 挖掘 查询 
比 ， 并 不 明显 增加 计算 费用 。 

















本 小 节 的 所 有 例子 都 取 自 于 AllElectronics 的 买卖 数据 。 其 ! 
Wonth，daD 在 一 个 销售 地 区 (region) 交易 的 商品 ; 给 定 商品 的 






















































































都 可 以 用 多 特征 方 回答 

















这 一 遍 计算 也 与 第 





可 答 。 





遍 类 似 。 因 





此 ， 允 于 发 现 驱 动 的 





因为 它们 允许 在 多 粒度 层 聚 集 数据 。 本 小 节 ， 你 将 学 习 多 特征 
上 多 个 依赖 的 聚集 。 


在 实践 中 ， 这 些 数 据 方 非常 
简单 查询 的 方 计算 相 














与 标准 数据 方 上 回答 

















，7tem 是 一 个 交易 日 (year, 
命 是 商品 存放 在 货架 (shel7) 





货架 寿 































































































货架 寿 
上 的 月 数 ， 商 品 价格 和 销售 额 分 别 存放 在 price 和 sa7es。 为 下 究 多 特征 方 ， 我 们 首先 看 一 个 简单 
数据 方 的 例子 。 

例 2.17 查询 1: 简单 数据 方 查 询 。 找 出 2000 年 销售 总 和 ， 按 jtem，region 和 montp 划分 ， 
对 每 维 求 子 和 。 

为 回答 查询 1， 构 造 一 个 数据 方 ， 它 在 以 下 8 个 不 同 的 粒度 层 上 聚集 销售 和 : { (item region, 
month), (item, region), (item, month), (month, region), (item, (region), (month), ()}; 
其 中 ，( ) 代 表 all1。 有 多 种 技术 可 以 有 效 地 计算 这 种 数据 方 (2. 4. 1 小节) 。 口 

查询 1 使 用 一 种 我 们 本 章 研 究 过 的 数据 方 。 我 们 称 这 种 数据 方 为 简单 数据 方 ， 因 为 它 不 涉及 任 
何 依赖 聚集 。 

“依赖 聚集 的 含义 是 什么 ” ”我们 通过 研究 下 面 的 例子 ， 回 答 这 一 问题 。 

例 2.18 查询 2: 一 个 复杂 查询 。 按 {71tem，reg1ion，month} 的 所 有 子 集 分 组 ,对 每 组 找 出 2000 
年 最 高 价格 ， 并 在 具有 最 高 价格 的 元 组 中 找 出 总 销售 额 。 

使 用 标准 的 SQL， 这 种 查询 说 明 可 能 很 长 、 很 复杂 ， 并 且 难 以 优化 和 维护 。 查 询 2 可 以 用 扩充 
的 SQL 精确 地 表示 如 下 : 

select item, region, month, MAX (price), SUM(R. sales) 
from Purchases 

where year=2000 

cube by item, region, month: R 

such that  R.price=MAX (price) 


组 合 


属性 。 在 
组 分 组 g;， 
的 所 有 元 组 (如 子 句 such that 
一 起 返回 。 结 果 方 是 

计算 。 例 如 ， 查 询 2 返回 的 销售 














所 有 分 组 属性 




















首先 选择 代表 2000 年 交易 的 元 组 。 
计算 聚集 〈 或 分 组 ) ， 它 是 group by 子 句 的 2 维 泛 
上 具有 相同 值 
计算 该 分 组 元 组 中 的 最 高 

















价格 max, 
所 指明 ) 

















让 我 们 看 男 一 个 例子 。 





的 元 组 形成 一 


cube by 子 句 对 属性 
个 分 组 。 
。 变量 h 
。h 遍 取 名 中 的 元 组 ， 计 算 销售 和 |， 并 与 2 的 分 组 





一 个 多 特征 方 ， 它 支持 复杂 数据 挖 和 


和 是 依赖 于 每 个 分 组 的 最 





例 2.19 查询 3: 
出 2000 
格 的 元 组 中 ， 找 出 具有 最 小 
图 2. 23 所 示 的 多 特征 方 图 
另外 添加 一 个 结 点 RO。 由 








化 力 0 









































一 个 更 复杂 的 查询 。 
年 最 高 价格 。 在 最 高 价格 的 元 组 
山椒 
帮助 解释 查询 
结 点 RO 


寿命 的 元 组 的 总 


中 ， 找 HH 





出 企 


按 {1tem，region，month} 的 所 有 子 集 分 旨 
最 小 和 最 大 的 商 
































销售 





的 聚集 依赖 。 
台 ， 先 计算 2000 年 最 





tem，region 和 mop 万 的 所 有 可 能 的 
化 。 在 cube by 子 句 中 说 明 的 属性 是 分 组 
设 分 组 为 g/， gz， ，&8。 对 每 个 元 
是 分 组 变量 ， 裔 取 分 组 中 价格 等 于 max 。 
属性 值 


人 ES 























和 额 部 分 。 


加 查询 ， 对 于 它 ， 多 依赖 的 聚集 在 不 同 粒度 
高 价格 的 集合 。 口 











日 ， 对 每 组 找 
还 要 在 所 有 最 高 价 


口 夺 口 
品 货架 











寿命 。 











中 有 一 个 结 点 ， 


该 医 


对 于 每 个 分 组 变量 ， 儿 
高 价格 的 元 组 〈 结 点 R1) 。 














日 变量 R2 和 R3 








乡 




















“依赖 于 ”R1， 因 为 由 Rl 到 R2 和 R3 分 别 有 一 条 有 向 边 。 在 多 维特 征 方 图 中 ， 由 分 






































即 ，R2 in R1l。 


























组 变量 忆 到 及 的 有 疝 边 意 指 局 总 是 裔 取 兄 遍 取 的 元 组 的 一 个 子 集 。 使 用 扩充 的 
“Ri in Ri” 作 为 这 种 情况 的 缩 记 。 例 如 ，R2 上 最 小 货架 寿命 的 元 组 遍 取 R1 上 最 高 价格 的 元 组 ; 




















类 似 地 ，R3 上 最 大 货架 寿命 的 元 组 遍 取 R1 上 最 高 价格 的 元 组 ; 
{=MIN'(R!1.shelf)} {=MAX(R1. shelf)} 
R2 R3 


RI {=MAX(price)} 


RD 


图 2. 23 








查询 3 的 多 特征 方 图 


由 该 图 ， 我 们 用 扩充 的 SQL 表示 查询 3 如 下 : 
item, region, month, MAX (price), MIN(R1. shelf), MAX (R1. shelf), 
SUM(R1. sales), SUM (R2. sales), SUM(R3. sales) 





select 
from 


where 
cube by 


口 


“如 何 有 效 地 计算 多 特 


节 ， 我 们 看 到 聚 引 





Purchases 
year=2000 





item, region, month:R1, R2, R3 

such that R1. price=MAX (price) and 

R2 in RI1 and R2. shelf=MIN(R1. shelf) and 
R1 and R3. shelf=MAX (R1. shelf) 


R3 in 














和 max_N() ) 或 整体 的 (如 median ()， 


多 特征 方 的 








类 型 决定 它 所 用 的 计算 方法 。 


mode() 和 rankO)。 














征 方 ? ”多 特征 方 的 计算 依赖 于 方 中 押 用 聚集 函数 的 
函数 分 为 分 布 的 (如 count 














QO ，sum(), min() 和 max0)、 代 数 的 ( 























SQL 表示 时 ， 我 们 








即 ，R3 in Rl。 


类 型 。 在 2.2.3 小 
如 avgO,，min NO 








有 许多 有 效 地 计算 数据 方 的 方法 。 




















多 特征 方 可 以 同样 分 类 。 


这 些 算法 的 基本 策 


咯 是 利用 定义 方 多 粒度 的 格 结构 ， 高 层次 粒度 的 聚集 由 低层 次 粒度 的 聚集 来 计算 。 这 种 方法 适合 





分 布 式 多 特征 方 。 

















增 地 产生 较 高 层 粒 度 的 方 输 出 。 











MAX (price) 的 最 大 值 来 计算 。 类 似 地 ， 可 以 通过 对 低层 分 组 的 SUM(sa7es) 求 和 来 计算 高 层 分 组 的 



























































直观 地 ， 查 询 2 是 分 布 的 多 特征 方 ， 因 为 我 们 可 以 仅 使 用 较 低 








层 粒 度 的 方 输出 渐 














较 高 层次 粒度 的 MAX (price) 计算 可 以 用 较 低层 




















SUM(sa7es) 。 有 些 有 效 方 构造 算法 采用 优化 技术 ， 基 于 估计 数据 方 内 分 组 回答 的 


于 多 特征 方 内 每 一 组 的 输出 量 是 常数 ， 相 同 的 技术 可 以 用 于 估计 中 间 结 果 的 大 小 。 









































方 计算 的 有 效 算 法 可 以 用 于 计算 复杂 查询 的 分 布 式 多 特征 方 ， 而 不 并 加 IO 复杂 





的 聚集 函数 比 简单 的 SUMO 等 复杂 ， 可 



































尽管 CPU 开销 一 般 是 可 接受 的 。 这 样 ， 





只 增加 了 一 点 点 。 


2.5.3 其 它 进展 


“有 无 快速 


机 聚集 中 ， 数 据 挖 











不 必 等 到 查询 结束 。 尽 管 联机 聚集 并 
快 一 些 。 


据 控 据 过 程 应 当 


























能 CPU 开销 略 有 增加 ， 但 可 忽略 。 代 数 的 
换 成 分 布 式 多 特征 方 ， 以 便 使 用 这 些 算法 。 台 体 的 多 特征 方 的 计算 ， 有 时 费用 明显 地 比分 布 式 高 ， 








层次 粒度 组 的 所 有 


























大 小 进行 优化 。 
因此 ， 简 单数 据 
性 。 如 果 多 特征 方 
多 特征 方 必须 先 转 



























































多 特征 方 用 于 回答 复杂 查询 ， 与 简单 数据 































































































、 
XA 





























另 一 种 方法 








等 待 得 到 所 有 商品 的 区 


























不 改进 回答 查询 的 总 时 间 ， 但 由 于 增加 了 与 
是 使 用 最 高 N 查询 。 假定 你 感 兴趣 的 是 数 以 百 万 计 的 商品 中 入 

















可 以 洞察 他 是 否 沿 着 “正确 





























方 查 询 相 比 ， 弥 用 


回答 查询 的 策略 ? ”快速 回答 查询 的 策略 集中 于 为 用 户 提供 中 间 反 馈 。 例 如 ， 在 联 
必 系 统 可 以 显示 “迄今 为 止 所 知道 的 ”， 而 不 是 等 待 查 询 完全 
据 挖掘 查询 的 近似 回答 随 着 计算 的 进行 周期 性 刷新 。 置 信 闻 隔 与 每 个 估计 相关 联 ， 
回答 可 靠 性 的 附加 反馈 。 这 促进 与 系 





处 理 完 。 这 种 对 数 
为 用 户 提供 关于 
的 ” 方 同 探查 ， 而 







































































系统 交互 ， 整 个 数 


肖 售 最 好 的 商品 。 与 其 
| 表 ， 按 销售 额 递减 序 排序 ， 你 可 能 只 希望 看 到 最 高 的 N 项 。 


使 用 统计 ， 可 以 








优化 查询 处 理 ， 返 回 最 高 的 N 项 ， 





性 和 减少 


> 资源 浪费 。 


2.6 由 数据 仓库 到 数据 挖掘 


“数据 仓库 和 0LAP 如 何 与 数据 挖 气 联系? ”本 节 ， 我 们 研究 用 于 信息 处 理 、 
挖掘 的 数据 挖掘 技术 。 我 们 还 将 介绍 联机 分 析 控 和 


2.6.1 数据 仓库 的 使 用 


数据 仓 尼 




















成 、 预 处 


























消费 物品 














和 有 零 














里 和 存储 如 











售 分 丁 














提供 。 稍 




















于 知 计 
具 


一 











[全 


如 何 使 用 数据 分 析 工 
有 三 种 数据 仓库 应 用 : 
信息 处 理 文 持 查 询 和 








处 理 





只 发 现 ， 并 使 
， 数 据 库 报 表 工 具 
商业 用 户 需 要 一 种 手段 ， 知 道 数 据 仓 库 里 
分 析 这 些 内 容 和 如 何 提供 






































E 和 数据 集 市 已 在 ) 
E 数 据 仓 库 与 数据 集 市 9 
ee 
部 门 ， 
通常 ， 数 据 仓库 使 用 时 
生 报 告 和 回答 预先 定义 的 查询 。 
后 ， 数 据 仓库 用 于 
数据 挖 志 
， 数 据 分 析 工 具 和 数据 挖掘 




















不 是 整个 排序 的 表 。 这 导致 较 快 的 响应 时 间 ， 有 助 于 用 户 交互 











轴 (COLAM) 。 


泛 的 应 用 领域 使 用 。 几 乎 每 个 行业 的 商务 管理 
PF 的 数据 ， 进 行 数据 分 析 和 决策 。 在 许多 公司 ， 数 ] 
贵 系 统 的 一 部 分 。 数 据 仓 库 广泛 用 在 银行 、 











以 及 诸如 基 





于 需求 的 产 品 生产 。 




















司 越 长 ， 它 i 
渐渐 地 
决策 ， 进行 


























信息 处 理 、 

















的 当前 








和 细 
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= 




















可 


信息 。 





互 数据 分 析 ， 而 数据 挖掘 的 目标 是 尽 可 能 
数据 挖掘 比 传统 的 联机 分 

另 一 种 更 广泛 的 观点 可 能 被 
数据 的 一 般 描 述 ， 











供 


涵盖 面 要 
测 、 











更 细 





多 。 


数据 分 析 。 
数据 挖掘 文 持 
视 化 工 
“数据 挖 扩 
然而 ， 这 利 
们 不 反映 复杂 

联机 分 析 处 到 
出 汇总 的 信息 。 


数据 仓库 
切片 ， 切 块 和 其 


流 
聚 类 、 


数据 挖 志 
的 数据 。 它 也 可 以 分 析 导 
据 库 技术 建 模 。 在 这 种 意义 下 ， 数 据 挖 














节 的 历史 数据 





知识 





发现， 
具 提 供 挖掘 结果 。 
时 与 信息 处 型 
查询 的 回答 反映 直接 存放 如 





基本 的 统计 分 析 ， 并 使 用 交 多 


























化 得 越 好 。 


进 
站 区 


多 维 








分 析 

















具 。 


EL 











有 什 
此 分 析 结 














分 析 处 到 





该 进化 进行 
用 于 分 析 汇 总 的 和 弓 
和 复杂 的 切片 和 切 块 操作 。 
图 工 具 进 行 决策 。 在 这 种 意义 下 ， 数 据 仓库 工具 






































趋势 是 构造 低 代价 的 基于 网 络 的 存 取 ] 
分 析 处 理 支 持 基 本 的 0LAP 操作 ， 包 括 
上 操作 。 与 信息 处 理 相 比 ， 联 机 分 析 处 理 的 主 























切片 与 切 块 、 














包括 找 出 隐藏 的 模式 和 关联 ， 构 造 





多 裔 。 
上 节 的 数据 





开始 ， 
结 


-=H 


到 


























OLAM 将 OLAP 与 数据 挖掘 集成 在 一 


人 员 都 使 用 收集 、 








数据 仓库 主要 用 
果 以 报告 和 图 表 形 





最 后 ， 




















分 析 处 





里 和 数据 
起 。 

















人 金属 


A 























数据 仓库 可 能 





可 以 分 为 存 取 与 检索 工 
么 〈 通 过 元 数据 ) ， 如 何 访问 数据 仓库 的 内 容 ， 


E 四 
人 小。 


和 数据 挖掘 。 








表 、 表 、 图 表 或 
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一 一 





然后 与 
下 钻 、 





























它 操作 ) 。 
j 单 的 OLAP 














比 简 

















的 模式 ， 或 隐藏 在 数 
向 数据 挖 据 走 近 了 一 
念 描述 ， 这 就 有 一 个 有 趣 的 问题 ; 

0LAP 和 数据 挖 


时 间 序 列 分 析 和 
时 不 限于 分 析 数 据 仓库 
有 务 的 、 文 本 的 、 





据 


ee 








“OLAP 进 
掘 的 功能 可 以 视 为 不 交 的 : 0LAP 是 数据 汇总 / 聚 人 
而 数据 挖掘 自动 地 发 现 隐 藏 在 大 量 数据 中 的 隐 含 








律 


内 为 电 


ee 内 上 | 














际 念 描述 。 












































OLAP 的 
这 些 尽 管 有 


(4 日 


宽 得 多 ， 














及 作 























由 于 数据 挖 
行 数 据 控 掘 吗 ? 0LAP 系统 实际 就 是 数 





上 卷 和 转轴 。 
要 优势 是 它 支 持 数据 仓库 的 多 





HI 
见 


网 络 浏 























分 析 模 型 ， 


























图 进行 报告 。 数 据 仓 库 信 息 
器 集成 在 一 起 。 
一 般 地 ， 





行 分 类 和 预测 ， 





它 在 汇总 的 





并 用 





E 和 联机 数据 分 析 的 关系 是 什么 ? ”信息 处 理 基 于 查询 ， 可 以 发 现 人 
EE 数据库 中 的 信息 ， 或 通过 
L, 信息 /区 \ 处 理 不 是 数据 挖掘 。 





聚集 函数 可 计算 的 信息 














掘 系统 也 


它 可 以 由 用 户 选 定 的 数据 仓库 子 集 





基 ， 在 多 粒度 








能 挖 














据 更 一 般 的 类 / 概 














据 挖 掘 系统 吗 ? ” 




















工 





含 模式 和 有 趣 知识 。OLAP 工 











k， 它 帮助 简化 数据 分 析 ; 









































动 处 理 ， 尽 




















处理 前 进 了 一 步 
接受 : 数据 挖掘 包含 数据 














功能 基 








限 ， 但 都 是 数据 挖掘 功 
因为 它 不 仅 执行 数据 汇总 和 比较 ， 而 且 
它 数据 分 析 任 务 。 
的 数据 。 它 可 以 分 析 现 存 的 、 
空间 的 和 多 媒体 数据 ， 这 些 数据 很 难 用 现 有 的 多 维 
怕 











几 涵 盖 的 数据 挖 扩 





管 允许 









































时 功能 和 处 ] 





户 指导 这 


述 和 数据 建 模 。 
本 上 是 用 户 指挥 的 汇总 和 比较 (通过 上 、 下 钻 , 旋转 ， 
能 。 同 样 根据 这 各 观点， 数据 控 气 的 


过 



































理 的 数据 复杂 





程 。 
于 

















执行 关联 、 





的 目标 是 简化 和 支持 交 


在 这 种 意义 下 ， 


0LAP 系统 可 以 提 


分 类 、 预 


比 数据 仓库 提供 的 汇总 数据 粒度 





数 
FE 要 比 OLAP 大 得 












































于 数据 挖掘 涉及 的 分 析 比 OLAP 更 自动 化 、 














所 可 
数据 
的 购 








以 帮助 经 理 找 到 更 合适 的 客户 ,也 能 获得 对 
帮助 经 理 了 解 顾客 的 群 


挖掘 能 够 帮 
买 模式 导出 的 实际 商品 组 来 修正 商品 的 排放 ; 




















效益 。 


2.6.2 


库 、 
与 数 


联机 
一 个 


户 查 





访问 。 


滤 数 
时 间 


不 


由 联机 分 析 处 理 到 联机 分 析 挖 掘 








在 数据 挖掘 领 域 ， 一 些 研 究 成 果 已 被 


商务 的 洞察 ， 
体 特点 ， 并 据 此 制定 价 


] 于 各 种 平台 





更 深 








在 降低 推销 



































时 间 序 列 数据 库 、 展 开 的 文件 、 
在 数据 挖 扬 的 许多 不 同 范 例 丰 


数据 仓库 等 。 





























和 结构 中 ， 联 机 分 析 挖 气 (CO0LAM， 也 称 0LAP 挖掘 ) 将 联机 分 析 处 理 

















据 挖掘 以 及 在 多 维 数据 库 ， 





发 现 知识 集成 在 











起 ， 由 于 以 








数据 仓库 中 数据 的 高 质量 : 大 部 分 数据 挖掘 工具 
、 数 据 变 换 和 数据 集成 作为 预 处 怕 
时 的 高 质量 

















这 需要 昂贵 的 数据 清 
仓库 不 仅 用 作 0OLAP， 而 且 也 用 作 数 据 控 
以 作为 数据 清理 和 集成 的 有 价值 的 工具 。 






























































县 





入 ， 数 据 挖 气 应 有 
帮助 提高 市 场 份额 和 增加 利 
格 策略 ， 不 是 根据 直 


下 的 数据 挖掘 。 包 括 事 务 数据 库 、 











更 广 的 应 用 范围 。 数 据 挖 
润 。 此 外 ， 
观 ， 而 是 根据 顾客 
体 推销 的 纯 























商品 开销 的 同时 ， 提 高 总 


关系 数据 











下 原因 而 特别 重要 : 























了 甲 























的 数据 处 到 








环绕 数据 仓库 的 有 价值 的 信息 处 理 基 础 : 全 面 


6 存 取 ， 集 成 ， 加 固 ， 
上 且 


一 














据 仓库 而 系统 地 建立 ， 这 包 折 
网 络 访问 和 服务 机 制 ， 报 表 和 OLAP 分 析 工 
切 从 头 做 起 。 

基于 0LAP 的 探测 式 数 据 分 析 : 有 效 的 数据 控 























掘 需 


二 


、 
o。 人 侍 


























提 作 
果 数 据 上 进行 上 卷 、 下 钻 、 旋 转 、 过 滤 、 
大 大 增强 探测 式 数据 挖掘 的 能 力 和 灵活 性 。 
数据 挖掘 功能 的 联机 选择 : 用 户 常常 不 知道 
据 挖 气功 能 集成 在 一 起 ， 联 机 分 析 挖 

据 任 务 提供 了 灵活 性 。 
分 析 挖 掘 的 结构 
OLAM 服务 器 


集成 的 OLAM 和 0 
































人 









































用 与 OLAP 服务 器 进行 联机 分 析 处 理 类 似 的 方 
LAP 结构 如 图 2. 24 所 示 。 其 中 ，OLAM 和 0LAP 都 通过 








切片 。 





岂 想 挖掘 什么 类 
加 为 用 户 选择 所 期 望 的 数据 控 气 功能， 动态 地 改变 数据 控 


需要 在 集成 的 、 
的 、 有 价值 


和 数据 分 相 
多 个 异种 数据 库 的 转换 ，0DBC/0OLE DB 
慎 的 做 法 是 尽量 


要 探测 式 数 据 分 析 。 用 户 常 
选择 相关 数据 ， 在 不 同 的 粒度 上 分 析 它 们 ， 以 不 同 的 形式 提供 知 认 
在 不 同 的 数据 子 集 和 不 同 的 抽象 层 上 进行 数据 挖 
切 块 、 


时 的 机 伟 
这 些 与 数据 /知识 可 视 化 工具 一 起 ， 将 











致 的 和 清理 过 的 数据 上 运行 ， 
步骤 。 经 由 这 些 预 处 理 而 构造 的 数据 
的 数据 源 。 注 意 ， 数 据 挖掘 也 可 





















































基础 已 经 ， 或 将 要 围绕 数 


车 接 ， 


连 
利用 可 用 的 基础 ， 而 不 是 一 






































常 想 穿越 数据 库 ， 
R/ 结 果 。 联 机 分 析 数 据 挖 气 


山 


器 的 中 间 结 




















I， 在 数据 方 和 一 些 挖 


























型 的 知识 。 通 过 将 0LAP 与 多 种 数 











请 1 























询 (命令) ， 并 通过 数据 方 API 与 数据 方 


























通过 MDDB API 访问 和 /或 集成 多 个 数据 库 ， 
据 仓 库 ， 可 以 构造 数据 方 。 
序列 分 析 等 多 种 数据 挖掘 任务 ， 它 通常 


















































或 者 过 文 持 





于 OLAM 服务 器 可 以 执行 如 概念 描述 、 关 联 、 
| 多 个 集成 的 数据 搅和 








杂 得 多 。 

















式 ， 在 数据 方 上 进行 联机 分 析 挖 掘 。 


图 形 用 户 界 面 API 接受 用 
































道 进行 数据 分 析 。 元 数据 目录 用 于 指导 对 数据 方 的 


0LE DB 或 0DBC 连接 的 数据 库 API 过 
分 类 、 预 测 、 聚 类 、 


届 模 块 组 成 ， 并 且 比 0LAP 服务 器 











基于 限制 的 
数据 挖 所 




















本 书 的 下 二 
于 数据 挖 所 的 研究 
大 地 方便 了 数据 挖掘。 



































品 的 汇总 数据 ， 或 对 较 高 层次 (如 ， 国 
的 能 力 ， 为 成 功 的 数据 挖 





名 


态 的 视 
此 外 ， 我 们 也 相 














上 卷 ， 而 不 是 在 原始 
特定 电视 机 的 数据 ， 


襄 节 机 





是 基本 的 。 这 是 因 
例如 ， 数 据 仓库 


图 2. 24 





挖掘 结 





一 个 集成 的 OLAM 和 0LAP 


究 数据 挖掘 技术 。 正 如 我 们 已 经 看 到 
为 数据 仓库 为 用 户 提供 


第 四 层 


用 户 界 面 


第 三 层 


结构 
的 ， 本章 介 乡 














p= 











了 清洁 的 、 








组 织 


口 


的 数据 仓库 和 OLAP 技术 对 


的 、 汇 总 的 数据 ， 大 























言 数据 挖掘 








的 数据 














事务 导航 到 顾客 或 
原理 时 ， 我 们 特别 强 i 














数据 仓库 是 面向 
有 一 些 因 











通常 ， 多 维 数据 

















顾客 类 型 。 
调 OLAP 挖掘 。 





主题 








模型 








实 星 座 模式 。 多 
是 一 个 组 织 想 


A 











维 数 ] 














要 记录 的 实体 或 透视 ， 
概念 分 层 将 属性 或 维 








的 值 台 























页 的 、 集 成 的 、 
素 区 别 数据 仓库 与 操作 数据 库 
数据 ， 有 必要 将 数据 仓库 与 操作 数据 
用 于 数据 仓库 和 数 
据 模 型 的 核心 是 数据 方 。 数 据 方 





屋 ， 在 事务 间 挖 
到 观察 诸如 索尼 
这 种 0LAP 风格 的 数据 挖 气 是 OLAM 的 特点 。 在 下 一 章 研 








即 ， 强 








得 织 成 渐进 


丰 





FPF 不 是 存放 每 个 入 
家 ) 的 汇总 数据 。0LAP 提供 数据 仓库 中 
时 芮 定 了 坚实 的 基础 。 
应 当 是 以 人 为 中 心 的 
据 挖 据 ， 而 不 是 要 求 数 据 挖掘 系统 自动 地 产生 模式 和 知识 。 
样 ， 并 为 探测 式 数 据 挖掘 做 了 必要 的 准备 。 例 如 ， 考 虑 关联 模式 的 发 现 。 
时 关联 。 例 如 ， 用 户 可 能 希望 在 7tem 维 上 卷 ，! 
、 松 下 等 类 电视 机 的 数据 。 在 搜索 有 趣 的 关联 时 ， 用 户 也 可 以 














调 数据 控 志 











库 分 开 











维 














日 








1 于 两 种 系统 提供 
护 。 
据 集 市 的 设计 。 这 种 模型 采 








肖 售 事务 的 细节 

















节 ， 














时 








而 


AE: 





存放 每 个 部 门 每 类 商 
汇总 数据 的 多 个 、 动 














过 程 。 





用 户 将 经 常 














时 与 OLAP 技术 的 集成 。 





应 当 











与 系统 交互 ， 进 行 探 测 式 数 
OLAP 为 交互 式 数 据 分 析 树 立 了 一 个 好 榜 


允许 用 户 沿 着 任意 维 
观察 





























究 数 据 挖 扩 





时 








时 变 的 和 非 易 失 的 有 组 织 的 数据 集 


2 
HY 





文 持 管 理 决策 人 





I 定 。 














相当 不 同 的 功能 ， 需 要 不 同类 


型 的 





区 


用 星 形 




















1 大 量 事实 (或 

















然 分 层 











的 抽象 


民 。 概 念 


的 。 


度量 


三 





模式 、 
) 和 许多 维 


雪花 模式 或 事 
组 成 。 维 





























分 层 对 于 多 





| 象 层 上 的 挖 








遇 是 有 用 的 。 





操作 包括 上 卷 、 下 外 


和 增长 率 等 统计 操作 。 





数据 仓库 通常 采 月 

















联机 分 析 处 理 〈OLAP) 可 以 在 


〈 钻 过 、 
使 月 








三 层 结构 。 底 层 是 数据 仓库 服务 器 ， 通 常 





使 用 多 维 数据 模型 的 数据 仓库 或 数据 集 j 
占 透 ) 、 切 片 和 切 块 、 转 轴 旋转) ， 以 





数据 方 结构 ，OLAP 操作 可 以 有 效 地 实现 。 








是 关系 数据 

















服务 器 。 上 层 是 客户 ， 


服务 器 使 用 扩充 的 关 
器 直接 将 多 维 数 据 视 


史 数 据 使 用 ROLAP， 而 将 餐 
方 体 的 格 组 成 ， 每 个 方 体 对 应 于 给 定 多 维 
方 体 的 一 个 子 
晶 多 路 数组 聚集 。 该 技术 将 一 些 聚 集 ; 
可 以 更 有 


数据 方 由 
有 选择 地 物化 格 ， 
实现 ， 则 可 以 使 月 
使 用 索引 技术 ，OLAP 
































OLAP 服务 器 可 以 是 关系 





系 
图 











有 


包括 查询 和 报表 了 
OLAP (CROLAP) ， 多 维 0LAP (MOLAP〉 ， 或 混合 OLAP (HOLAP) 。 


DBMS， 将 多 维 的 关系 操作 。MOLAP 服务 








工具 。 


一 一 











数据 上 的 OLAP 操作 映射 成 标准 




















射 到 数组 结构 。HOLAP 是 ROLAP 和 MOLAP 的 结合 。 
项 繁 访问 的 数据 放 在 一 个 分 离 的 MOLAP 存储 中 。 








数 

















化 


Ro 








计算 








据 的 一 个 不 同 级 别 的 汇总 
完全 物化 是 指 物化 格 中 所 有 的 方 体 。 刀 
EE 迭 ， 使 得 整个 物 





典型 的 OLAP 
计算 平均 值 


上 进行 。 
及 求 等 级 、 
































库 系统 。 中 间 层 是 OLAP 


ROLAP 


例如 ， 它 可 以 对 历 








。 部 分 物化 是 指 
I 果 方 体 使 用 MOLAP 
化 计算 更 有 效 。 























查询 处 理 











引 表 。 位 图 索引 将 连 
可 连接 行 ， 降 低 0LA 
OLAP 查询 处 理 。 
































的 算法 、 
数据 仓库 包含 加 载 和 
装 入 、 刷 新 和 仓库 管 























户 的 分 析 进 程 。 
有 效 算法 ， 发 现 驱动 
数据 仓库 用 于 信息 处 
节 数 据 之 间 导 航 ) 和 
分 析 挖 掘 (COLAM) ， 




















习题 


.1 试 述 对 于 多 个 异 利 





数据 方 的 发 现 驱动 探查 


Ph 信 


接 、 
P j 


数据 仓库 元 数据 是 定义 仓库 对 象 的 数据 。 元 数据 库 提 作 
由 源 数据 到 数据 仓库 的 四 








局 || 立 | 
忒 


i 
E。 


理 
使 月 














的 探查 币 
开 
数据 挖掘 


它 强 














月 / 书 














仓库 ) ， 而 不 愿 使 























查询 驱动 的 方法 (使 用 包装 程 





聚集 和 比较 归结 成 位 算术 运算 。 连 接 索 引 登 


连接 操作 的 代价 。 位 图 连接 索引 结合 位 图 和 连接 方法 ， 可 以 进 一 


预先 计算 的 度量 和 可 
多 特征 方 计算 涉及 多 粒度 上 
I 多 特征 方 的 计算 可 
E 《查询 和 报表 


E 调 OLAP 控 


息 源 的 集成 ， 为 什么 许多 公 








效 地 进行 。 在 位 图 索引 中 ， 






































关于 仓库 结构 、 





A 里、 











视 方 ， 指 示 所 有 聚集 层 
的 多 依赖 的 复杂 查询 。 
以 有 效 地 进行 。 

) 、 分 析 处 理 〈 人 允许 用 户 通过 
(支持 知识 发 现 )。 
时 的 交互 式 和 探测 式 特 点 。 







































































NY 司 宁愿 使 用 更 新 驱动 




















每 个 属性 
学 记 来 自 


这 些 包括 数据 的 汪 


基于 OLAP 的 数据 挖掘 





有 它 自 己 的 位 图 索 
两 个 或 多 个 关系 的 
步 加 快 






































数据 历史 、 汇 总 所 使 用 





系统 性 角 和 商务 术语 及 含义 等 细节 。 
数据 仓库 的 后 端 工具 和 实用 程序 。 











月 





理 ~» 


数据 变换 、 








中 的 数据 例外 ， 指 导 





通过 使 用 标准 数据 方 计算 的 
OLAP 操作 在 汇总 数据 和 细 








称 为 OLAP 挖掘 或 联机 











的 方法 (构造 使 用 数据 














序 和 集成 程序 ) 。 





述 一 些 情况 ， 其 中 查询 




















驱动 方法 比 更 新 驱动 方法 更 受 欢 迎 。 


简略 比较 以 下 概念 


， 你 可 以 月 


日 例子 解释 你 的 观点 。 

















(a) “雪花 模式 、 
(bp) ”数据 清理 、 
(c) 发现 
假定 数据 仓库 包含 











2. 


CD 


charge 是 医生 对 一 位 病人 
列举 三 种 流行 的 数据 仓库 建 模 模式 。 
的 模式 之 一 ， 画 上 
由 基本 方 体 [de aoctom patient] 
Fé OLAP 4 


(a) 
(b) 
(c) 


使 用 (a) 列举 








行 哪些 


(d) ”为 得 到 同样 的 结 


事实 星 
数据 变换 、 
K 动 数据 方 、 多 特征 方 、 虚 拟 仓库 。 

time,，doctor 和 patient; 两 个 度 
的 一 次 来 访 的 收费 。 





! 座 、 星 





形 网 查询 模型 。 








剖 





三 个 维 : 





写 一 个 SQL 查 


新 。 


三 
EEE 

















上 上面 数 据 仓 库 的 模式 图 。 
开始 ， 为 列 出 2000 锯 





笑 








年 每 位 





count 和 charge; 其 











生 的 收费 总 数 ， 应 当 执 











fee (day, 0 year, es hospital, patient, count, charge) 


2 


小 


上 3 
EL 


2 个 度 





的 平均 成 绩 。 
(a) ”为 数据 仓库 画 





count 和 ar5 grade。 
的 组 合 ) ， 度 量 ave grade 存放 学 生 的 实际 成 绩 。 





询 。 假 定数 据 存放 在 关系 数据 库 中 ， 其 模式 如 下 : 





假定 Big University 的 数据 仓库 包含 如 下 4 个 维 : student, course, semester 和 jnstructor:; 

















面 出 雪花 模式 图 。 





在 最 低 的 概念 屋 〈 例 如 ， 对 于 给 定 的 学 生 、 课 程 、 
在 较 高 的 概念 层 ，are grade 存放 给 定 组 合 





学 期 和 教师 


有 
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2 
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(b) 


(c) 























每 


个 学 生 的 CS 课程 的 平均 成 绩 ， 应 当 使 








| 基本 方 体 [student，course，semester，jinstructor| 开 始 ， 为 列 H 





DL Big University 























哪些 OLAP 操作 (如 ， 




















如 果 每 色 














数据 方 包含 多 少 方 体 〈 包 括 基 本 方 体 和 项 点 方 体 ) ? 







































































































































































































































































由 学 期 上 卷 到 学 年 ) 。 
证 有 5 层 (包括 a1l1) ， 如 student 《< major < status 《< unrrers7t《all， 该 









































.5 假定 数据 仓库 包含 4 个 维 : date，spectator，1Jocation 和 game; 2 个 度量 : count 和 charge。 
其 中 ，charge 是 观众 在 给 定 的 日 期 观看 节目 的 付费 。 观 众 可 以 是 学 生 、 成 年 人 或 老人 ， 每 类 观 
众 有 不 同 的 收费 标准 。 

(a) ” 夯 出 该 数据 仓库 的 星 形 模 式 图 。 

(p) | 基本 方 体 [date，spectator，Jocation，game] 开始， 为 列 出 2000 年 学 生 观 众 在 
GM-Place 的 总 代价 ， 应 当 执 行 哪些 OLAP 操作 ? 

(c) ”对 于 数据 仓库 , 位 图 索引 是 有 用 的 。 以 该 数据 方 为 例 ， 简略 讨论 使 用 位 图 索引 结构 的 优点 
和 问题 。 

.6 为 地 区 气象 局 设计 一 个 数据 仓库 。 气 象 局 大 约 有 1, 000 观察 点 ， 散 布 在 该 地 区 的 陆地 、 海 洋 ， 
收集 基本 气象 数据 ， 包 括 每 小 时 的 气压 、 温 度 、 降 雨量 。 所 有 的 数据 都 送 到 中 心 站 ， 那 里 已 收 
明了 这 种 数据 长 达 十 年 。 你 的 设计 应 当 有 利于 有 效 的 查询 和 联机 分 析 处 理 ， 有 利于 有 效 地 导出 
多 维 空间 的 一 般 天 气 模式 。 

.7 ”在 数据 方 中 计算 度量 : 

(a) ”根据 计算 数据 方 所 用 的 聚集 函数 ， 列 出 度量 的 三 种 分 类 。 
(b)” 对 于 具有 三 个 维 ，time，Jocation 和 product 的 数据 方 ， 函 数 variance 属于 哪 一 类 ? 如 
果 方 被 分 割 成 一 些 块 ， 描 述 如 何 计算 它 。 
提示 : 计算 variance 函数 的 公式 是 : -> Xx? ， 其 中 ， 天 是 这 些 的 平均 值 。 
(c) ”假定 函数 是 “最 高 的 10 个 销售 额 ”。 讨 论 如 何在 数据 方 里 有 效 地 计算 该 度量 。 




















.8 假定 需要 在 数据 方 中 
除 ( 即 ， 每 次 一 小 部 分 ) ， 为 每 种 度量 设计 有 效 的 计算 和 存储 方法 。 











记录 三 种 度量 : min. 、average 和 median。 给 定 的 数 




















































































































据 方 允许 渐 增 地 删 





.9 数据 仓库 实现 的 流行 方法 是 构造 一 个 称 为 数据 方 的 多 维 数据 库 。 不 幸 的 是 ， 这 常常 产生 大 的 、 
稀 玻 的 多 维和 矩阵 。 
(a) ”给 出 一 个 例子 ， 解 释 这 种 大 的 、 稀 玻 的 数据 方 。 
(b) “设计 一 种 实现 方法 ， 可 以 很 好 地 充 服 这 种 稀 玻 矩阵 问题 。 注 意 ， 你 需要 详细 解释 你 的 数据 

结构 ， 讨 论 空间 需求 量 ， 以 及 如 何 由 你 的 结构 中 提取 数据 。 

(c) ”修改 你 在 (b) 的 设计 ， 处 理 渐 增 的 数据 更 新 。 给 出 你 的 新 设计 的 理由 。 

. 10 在 数据 仓库 技术 中 ， 多 维 视图 可 以 用 多 维 数据 库 技术 MOLAP〉， 或 关系 数据 库 技术 (ROLAP) ， 
或 混合 数据 库 技术 (HOLAP〉 实 现 。 
(a) ”简要 描述 每 种 实现 技术 。 


(b) ”对 每 种 技术 ， 解 释 如 下 函数 如 何 实现 : 
ij， 数据 仓库 的 产生 〈 包 括 聚 集 ) 。 





上 卷 。 
iii， 下 钻 。 
iv， 渐 增 更 新 。 


1i. 





你 喜欢 哪 种 实现 技术 ? 为 什么 ? 


















































































































































级 。 你 如 何 设计 数 


持 这 一 特征 ? 
0，|C|=1, 000。 假 


多 大 ? 


.11 假定 数据 仓库 包含 20 个 维 ， 每 个 维 有 5 级 粒度 。 
(a) ”用 户 感 兴趣 的 主要 是 4 个 特定 的 维 ， 每 维 有 3 个 上 卷 、 下 钻 频 繁 访问 的 
据 方 结构 ， 有 效 地 对 此 予以 支持 ? 
(b) 时常， 用 户 想 由 一 、 两 个 特定 的 维 钻 透 数据 方 ， 到 原始 数据 。 你 如 何 支 
.12 ”假定 基本 方 体 有 三 个 维 (4, B O， 其 单元 数 如 下 : |4|=1, 000, 000，|B|=10 
定 分 块 将 每 维 分 成 10 部 分 。 
(a) ”假定 每 维 只 有 一 层 ， 画 出 完整 的 方 的 格 。 
(b) ”如 果 每 个 方 单元 存放 一 个 4 字 节 的 度量 ， 若 方 是 稠密 的 ， 所 计算 的 方 有 
(c) “指出 空间 需求 量 最 小 的 块 计算 次 序 ， 并 计算 2- 维 平面 计算 所 需要 的 内 存 空间 。 

















3. 13 考虑 下 面 的 多 特征 方 查询 : 按 {item，resion，mwonth} 的 所 有 子 集 分 组 ， 对 每 组 找 出 2000 年 




















的 最 小 货架 寿命， 并 对 价格 低 于 、 其 最 小 货架 寿命 在 之 间 的 元 组 找 出 总 销售 额 部 分 。 














(a) 画 出 该 查询 的 多 特征 方 图 。 
(b) ”用 扩充 的 SQL 表示 该 查询 。 
































(c) ”这 是 一 个 分 布 式 多 特征 方 吗 ? 为 什么 ? 


2. 14 三 种 主要 的 数据 仓库 应 用 一 一 信息 处 理 、 分 析 处 理 和 数据 挖掘 一 一 的 3 
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区 别 是 什么 ? 讨论 





OLAP 挖掘 〈OLAM) 的 动机 。 


文献 注释 

















有 大 量 关 于 建立 数据 仓库 和 0LAP 技术 的 引 论 性 教材 ， 包 括 Inmon[Inm96]，Kimball [Kim96]， 


Berson 和 Smith[BS97]， 以 及 Thomsen[Tho97] 。Chaudhuri 和 Dayal[CD97] 给 出 了 建立 数据 仓库 和 


OLAP 技术 的 综述 。 























决策 支持 系统 的 历史 可 以 追溯 到 20 世纪 60 年 代 。 然 而 ， 为 多 维 数据 分 析 构 造 大 型 数据 仓库 的 
提议 归功 于 Codd[CCS93]， 他 创建 术语 0LAP 表示 联机 分 析 处 理 。0LAP 委员 会 成 立 于 1995 年 。 























Widom[Wid95j] 列 举 了 数据 仓库 的 一 些 研究 问题 。Kimball[Kim96] 总 结 了 SQL 在 支持 商业 界 常见 的 比 


较 方 面 的 不 足 。 关 于 0LAP 系统 








与 统计 数据 库 的 比较 综述 ， 见 Shoshani [Sho97]。 











DMQL 数据 挖掘 查询 语言 


























Han 等 提出 [HFW+96a] 。 数 据 挖 掘 查询 语言 的 进一步 讨论 在 第 4 章 。 








其 它 基 于 SQL 的 数据 挖掘 语言 在 Imielinski，Virmani 和 Abdulghani[IVA96]、Meo，Psaila 和 


CeriLIPC96]、Baralis 和 Psai 





la[BP97] 中 提出 。 





Gray 等 [GCB+97] 提 出 将 数据 方 作为 关系 聚集 操作 符 ， 泛 化 分 组 、 交 叉 表 、 子 和 。Harinarayan， 


Rajaraman 和 Ullman[HRU96] 








是 出 数据 方 计 算 的 有 选择 物化 的 贪心 算法 。Agarwal 等 [AAD+96] 为 














ROLAP 服务 器 多 维 聚 集 的 有 效 计 算 提出 了 一 些 方法 。2. 4. 1 小 节 介 绍 的 MOLAP 中 计算 数据 方 的 基于 














块 的 多 路 数组 聚集 算法 由 Zhao， 




















Deshpande 和 Naughton[ZDN97] 提 出 。 数 据 方 快速 计算 的 其 它 方法 





可 以 在 Beyer 和 Ramakrishnan[BR99] 、Ross 和 Srivastava[RS97] 中 找到 。 Sarawagi 和 
Stonebraker[SS94] 开 发 了 一 种 大 型 多 维 数组 有 效 组织 的 基于 块 的 计算 技术 。 冰 山 查询 在 Fang， 








Shivakumar，Garcia-Molina 等 
































[FSGM+98] 以 及 Beyer 和 Ramakrishnan[BR99] 中 介绍 。 








使 用 连接 索引 来 加 快 关系 查询 处 理由 Valduriez[Val89] 提 出 。0’Neil 和 Graefe[0695] 提 出 位 























和 Quass[0Q97] 中 给 出 。 
































图 连接 索引 方法 , 以 加 快 基于 0LAP 的 查询 处 理 。 位 映射 和 其 它 非常 规 索引 技术 的 性 能 讨论 在 0'Neil 


关于 为 有 效 的 OLAP 查询 处 理 ,物化 方 体 选择 的 工作 , 见 Chaudhuri 和 Dayal[CD97]、Harinarayan， 


Rajaraman 和 Ullman[HRU96j]、 





Sristava 等 [SDJL96]。 方 体 大 小 估计 的 方法 可 以 在 Deshpande 等 














[DNR+97] 、Ross 和 和 Srivastava[RS97]、Beyer 和 RamakrishnanLBR99] 中 找到 。Agrawal，Gupta 和 


Sarawagi [AGS97] 提 出 了 多 维 数据 库 建 模 的 操作 。 




















最 近 ， 有 一 些 用 于 数据 挖掘 的 发 现 驱 动 的 数据 方 实现 方面 的 研究 ， 包 括 由 Sarawagi, Agrawal 


和 Megiddo[SAM98] 提出 的 0 
Chatziantonion[RSC98] 的 多 特 














LAP 数据 方 的 发 现 驱 动 的 探查 ， 以 及 Ross，Srivastava 和 
征 方 构造 。 通 i 集 快速 回答 查询 的 方法 在 Hellerstein, Haas 






































和 Wang[HHW97] 、Hellerstein 等 [HAC+99]] 中 介绍 。 估 计 最 高 N 个 查询 的 技术 由 Carey 和 
Kossman[CK98] 、Donjerkovic 和 Ramakrishnan[DR99] 提 出 。OLAM 技术 的 讨论 见 Han[Han98] 。 



































第 三 章 数据 预 处 理 


当今 现实 世界 中 的 数据 库 极 易 受 噪音 数据 、 遗漏 数据 和 不 一 








致 性 数据 的 侵扰 , 因为 数据 库 大 大 ， 


























常常 多 达 数 干 兆 ， 甚 至 更 多 。“ 如 何 预 处 理 数 据 ， 提 高 数据 质量 















































可 能 会 问 。“ 怎 样 预 处 理 数据 ， 使 得 挖掘 过 程 更 加 有 效 、 更 加 容 


有 大 量 数据 预 处 理 技术 。 数 据 清理 可 以 去 掉 数 据 中 的 噪音 ， 
个 源 合 并 成 一 致 的 数据 存储 ， 如 数据 仓库 或 数据 方 。 数 据 变换 













































































x 易 ? 329 


量 ， 从 而 提高 挖掘 结果 的 质量 ? ”你 











纠正 不 一 致 。 数 据 集成 将 数据 由 多 








《如 规范 化 ) 也 可 以 使 用 。 














例如 ， 规 


范 化 可 以 改进 涉及 距离 度量 的 挖掘 算法 的 精度 和 有 效 性 。 数 据 归 约 可 以 通过 聚集 、 删 除 郊 余 特 征 或 
聚 类 等 方法 来 压缩 数据 。 这 些 数据 处 理 技术 在 数据 挖 据 之 前 使 用 ， 可 以 大 大 提高 数据 挖掘 模式 的 质 
































量 ， 降 低 实际 挖掘 所 需要 的 时 间 。 
本 章 ， 你 将 学 习 数据 预 处 理 的 方法 。 这 些 方法 包括 : 数据 















































抽象 层 挖 据 。 你 将 学 习 如 何 由 给 定 的 数据 自动 地 产生 概念 分 层 。 











3.1 为 什么 要 预 处 理 数 据 ? 


想象 你 是 AllElectronics 的 经 理 ， 负 责 分 析 涉 及 你 部 门 的 公司 数据 。 你 立即 着 手 进行 
你 仔细 地 研究 和 审查 公司 的 数据 库 或 数据 仓库 ， 找 出 应 当 包 含 在 你 的 分 析 中 的 属性 或 维 ， 
price 和 units_sold。 啊 ! 你 注意 到 ， 许 多 元 组 在 一 些 属性 上 没有 值 。 对 于 你 的 分 析 ， 






































清理 、 数 据 集 成 和 转换 、 数 据 归 约 。 
本 章 还 讨论 数据 离散 化 和 概念 分 层 ， 它 们 是 数据 归 约 的 一 种 替换 形式 。 概 念 分 层 可 以 进一步 用 于 多 












































这 项 工作 。 
如 item 















































你 希望 知道 每 











种 销售 商品 是 否 通过 广告 降价 销售 ， 但 你 又 发 现 这 些 信息 根本 未 记录 。 此 外 ， 你 的 数据 库 系 统 用 户 
换言之 ， 你 希望 使 用 数据 挖掘 技术 
分 析 的 数据 是 不 完整 的 《有 些 感 兴趣 的 属性 缺少 属性 值 ， 或 仅 包 含 聚 集 数据 ) ， 含 噪音 的 《包含 错 














已 经 报告 一 些 错误 、 不 寻常 的 值 和 某 些 事务 记录 中 的 不 一 致 性 。 












































误 ， 或 存在 偏离 期 望 的 局 外 者 ) ， 并 且 是 不 一 致 的 〈 例 如 ， 用 于 商品 分 








欢迎 来 到 现实 世界 ! 
存在 不 完整 的 、 含 噪音 的 和 不 一 致 的 数据 是 大 型 的 、 现 实 


























世界 数据 库 或 数据 仓库 的 共 








> 类 的 部 门 编码 存在 差异 ) 。 





同 特点 。 























不 完整 数据 的 出 现 可 能 有 多 种 原因 。 有 些 感 兴趣 的 属性 ， 如 销售 事务 数据 中 顾客 的 信息 ， 并 非 总 是 











可 用 的 。 其 它 数据 没有 包含 在 内 ， 可 能 只 是 因为 输入 时 认为 是 不 重要 的 。 术 
理解 错误 ， 或 者 因为 设备 故障 。 此 外 ， 记 录 历 史 或 修改 的 数据 可 能 被 忽略 。 与 其 它 数据 不 一 致 的 数 
































据 可 以 删除 。 遗 漏 的 数据 ， 特 别 是 某 些 属 性 上 缺少 值 的 元 组 可 












































算 机 的 错误 可 能 在 数据 输入 时 出 现 ， 数 据 传输 中 的 错误 也 可 能 
如 用 于 数据 传输 同步 的 级 名 区 大 小 的 限制 。 不 正确 的 数据 也 可 
而 导致 的 。 重 复元 组 也 需要 数据 清理 。 













































































数据 清理 例 程 通过 填写 遗漏 的 值 ， 平 滑 品 音 数 据 ， 识别、 删除 局 外 者 ， 并 解决 不 一 致 来 “清理 ” 
数据 。 脏 数据 造成 挖掘 过 程 陷入 困惑 ， 导 致 不 可 靠 的 输出 。 尽 管 大 部 分 挖掘 例 程 都 有 一 些 过 程 
理 不 完整 或 噪音 数据 ,但 它们 并 非 总 ,是 强壮 的 。 相 反 ,， 它 们 更 致力 于 和 避免 数 






















































































这 样 ， 一 个 有 用 的 预 处 理 步 又 是 使 用 某 些 清理 例 程 清理 你 的 数 









































成 多 个 数据 库 、 数 据 方 或 文件 ， 即 数据 集成 。 代 表 同 一 概念 的 属性 在 不 同 的 数据 库 中 可 
的 名 字 , 这 又 导致 不 一 致 性 和 见 余 。 例如, 关于 顾客 标识 符 的 属性 在 一 




















es 全 的 作 致 还 可 能 出 现在 属性 值 中 。 





























能 需要 推导 出 来 。 


日 关 数据 没有 记录 是 由 于 





ee el i tah EE 出 故障 ， 人 的 或 计 

































































出 现 。 这 些 可 能 是 由 于 技术 的 限制 ， 
能 是 由 命名 或 所 用 的 数据 代码 不 一 致 
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据 过 分 适合 所 建 的 模型 
据 。3.2 节 讨 论 清理 数据 的 方法 。 


回 到 你 在 AllElectronics 的 任务 , 假定 你 想 在 你 的 分 析 中 包含 来 自 多 个 数据 源 的 数据 。 这 涉及 集 



































能 具有 不 同 
种 数据 存储 中 为 customer_id,， 


ee 
登记 为 Bill, 在 第 二 个 数据 库 中 寺 登记 为 William, 而 在 第 三 个 数据 库 中 登 党 记 为 “B” , 此 外 ， 你 可 























会 觉察 到 ， 有 些 属性 可 能 是 由 其 它 属性 导出 的 (例如 ， 年 收入 〉。 含 大 量 见 余数 据 可 能 降低 知识 发 
现 过 程 的 性 能 或 使 之 陷入 困惑 。 显 然 ， 除 数据 清理 之 外 ， 必 须 采 取 步 又 ， 避 免 数 据 集成 时 的 元 余 。 
通常 ， 在 为 数据 仓库 准备 数据 时 ， 数 据 清理 和 集成 将 作为 预 处 理 步 又 进行 。 还 可 以 再 次 进行 数据 清 
里 ， 检 测 和 移 去 可 能 由 集成 导致 的 见 余 。 

回 到 你 的 数据 , 如 果 你 决定 要 使 用 诸如 神经 网 络 、 最 临近 分 类 或 聚 类 "这 样 的 基于 距离 的 挖掘 算 
法 进行 你 的 分 析 。 如 果 要 分 析 的 数据 已 规格 化 ， 即 按 比 例 映 射 到 一 个 特定 的 区 间 [0.0,1.0]， 这 种 方法 
能 得 到 较 好 的 结果 。 例 如 ， 你 的 顾客 数据 包含 年 龄 和 年 薪 属 性 。 年 薪 属 性 的 取 值 范 围 可 能 比 年 龄 
大 。 这 样 ， 如 果 属 性 未 规格 化 , 在 年 薪 上 距离 度量 所 取 的 权重 一 般 要 超过 在 年 龄 度量 上 所 取 的 权重 。 
此 外 ， 对 于 你 的 分 析 ， 得 到 每 个 地 区 的 销售 额 这 样 的 聚集 信息 可 能 有 用 的 。 这 种 信息 不 在 你 的 数据 
仓库 的 任何 预计 算 的 数据 方 中 。 你 很 快意 识 到 ， 数 据 变换 操作 ， 如 规格 化 和 聚集 ， 是 导向 挖掘 过 程 
成 功 的 预 处 理 过 程 。 数 据 集成 和 数据 变换 将 在 3.3 节 讨 论 。 


随 着 你 进一步 考虑 数据 ， 你 想 知 道 “ 我 所 选择 用 于 数据 分 析 的 数据 集 太 大 了 一 一 它 肯定 降低 挖 
掘 过 程 的 速度 。 有 没有 办 法 使 我 能 够 “压缩 ”我 的 数据 集 ， 而 又 不 损害 数据 挖掘 的 结果 ? ”数据 归 
约 得 到 数据 集 的 压缩 表示 ， 它 小 得 多 ， 但 能 够 产生 同样 的 《或 几乎 同样 的 ) 分 析 结 果 。 有 许多 数据 
归 约 策略 ， 包 括 数 据 聚 集 〈 例 如 ， 建 立 数据 方 ) 、 维 归 约 〈 例 如， 通过 相关 分 析 ， 去 掉 不 相关 的 属 
性 ) 、 数 据 压 缩 《〈 例 如 ， 使 用 诸如 最 短 编码 或 小 波 等 编码 方案 ) 和 数字 归 约 〈 例 如 ， 使 用 聚 类 或 参 
数 模型 等 较 短 的 表示 “ 蔡 换 ”数据 ) 。 泛 化 也 可 以 “ 归 约 ”数据 。 泛 化 用 较 高 层 的 概念 奉 换 较 低 层 
的 概念 ， 例 如 ， 用 地 区 或 省 / 州 替 换 城 市 。 概 念 分 层 将 概念 组 织 在 不 同 的 抽象 层 。 数 据 归 约 是 3.4 古 
的 主题 。 由 于 概念 分 层 对 于 多 抽象 层 上 的 数据 挖掘 是 非常 有 用 的 ， 我 们 另 用 一 节 来 讨论 这 种 重要 数 
据 结构 的 产生 。3.5 节 讨 论 概 念 分 层 的 产生 ， 通 过 数据 离散 化 进行 数据 归 约 。 


图 3.1 总 结 了 这 里 讨论 的 数据 预 处 理 步 又。 注意 ， 上 面 的 分 类 不 是 互 斥 的 。 例 如 ， 宛 余数 据 的 
删除 既是 数据 清理 ， 也 是 数据 归 约 。 
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图 3.1 ”数据 预 处 理 的 形式 


概 言 之 ,现实 世界 的 数据 一 般 是 脏 的 、 不 完整 的 和 不 一 致 的 。 数 据 预 处 理 技 术 可 以 改进 数据 的 
质量 ， 从 而 有 助 于 提高 其 后 的 挖掘 过 程 的 精度 和 性 能 。 由 于 高 质量 的 决策 必然 依赖 于 高 质量 的 数据 ， 
因此 数据 预 处 理 是 知识 发 现 过 程 的 重要 步骤 。 检 测 数据 异常 、 尽 早 地 调整 数据 ， 并 归 约 竺 分析 的 数 
据 ， 将 在 决策 制定 时 得 到 高 回报 。 


































































































”神经 网 络 和 最 临近 分 类 在 第 7 章 介 绍 ， 而 聚 类 在 第 8 章 讨 论 。 











3.2 数据 清理 















































现实 世界 的 数据 一 般 是 脏 的 、 不 完整 的 和 不 一 致 的 。 数 据 清 理 例 程 试图 填充 遗漏 的 值 ， 识 别 局 
外 者 、 消 除 噪 音 ， 并 纠正 数据 中 的 不 一 致 。 本 节 ， 我 们 将 研究 数据 清理 的 基本 方法 。 












































3.2.1 遗漏 值 


想象 你 要 分 析 AllElectronics 的 销售 和 顾客 数据 。 你 注意 到 许多 元 组 的 一 些 属性 , 如 顾客 的 收入 ， 
没有 记录 值 。 你 怎样 才能 为 该 属性 填 上 遗漏 的 值 ? 让 我 们 看 看 下 面 的 方法 ， 


1.， 忽略 元 组 当 类 标号 缺少 时 通常 这 样 做 假定 挖 抉 任 务 涉及 分 类 或 描述 ) 。 除 非 元 组 有 多 个 属 
性 缺少 值 ， 否 则 该 方法 不 是 很 有 效 。 当 每 个 属性 缺少 值 的 百分比 很 高 时 ， 它 的 性 能 非常 差 。 


2. 人 工 填写 遗漏 值 : 一 般 地 说 ， 该 方法 很 费时 ， 并 且 当 数据 集 很 大 ， 缺 少 很 多 值 时 ， 该 方法 可 能 
行 不 通 

3. 使 用 一 个 全 局 常量 填充 遗漏 值 ， 将 遗漏 的 属性 值 用 同一 个 常数 《如 “Unknown” 或 -oo) 替换 。 
如 果 遗 漏 值 都 用 “Unknown” 蔡 换 ， 挖 扬程 序 可 能 误 以 为 它们 形成 了 一 个 有 趣 的 概念 ， 因 为 它 
们 都 具有 相同 的 值 “Unknown”。 因 此 ， 尽 管 该 方法 简单 ， 我 们 并 不 推荐 它 。 


4.， 使 用 属性 的 平均 值 填充 遗漏 值 : 例如 ， 假 定 AllElectronics 顾客 的 平均 收入 为 $28,000， 则 使 用 该 
值 替 换 income 中 的 遗漏 值 。 


5. 使 用 与 给 定 元 组 属 同一 类 的 所 有 样本 的 平均 值 : 例如 ， 如 果 将 顾客 按 credit_risk 分 类 ， 则 用 具 
有 相同 信用 度 的 顾客 的 平均 收入 替换 income 中 的 遗漏 值 。 


6. 使 用 最 可 能 的 值 填充 遗漏 值 : 可 以 用 回归 、 使 用 贝 叶 斯 形式 化 方法 或 判定 树 归 纳 等 基于 推导 的 
工具 确定 。 例 如 ， 利 用 你 的 数据 集中 其 他 顾客 的 属性 ， 你 可 以 构造 一 棵 判定 树 ， 来 预测 income 
的 遗漏 值 。 判 定 树 将 在 第 7 章 详细 讨论 。 
方法 3 到 6 使 数据 倾斜 ， 填 入 的 值 可 能 不 正确 。 然 而 ， 方 法 6 是 最 常用 的 方法 。 与 其 它 方法 相 
比 , 它 使 用 现存 数据 的 最 多 信息 来 推测 遗漏 值 。 在 估计 income 的 遗漏 值 时 , 通过 考虑 其 它 属性 的 值 ， 
有 更 大 的 机 会 保持 income 和 其 它 属性 之 间 的 联系 。 




















































































































































































































































































































































































































































































































3.2.2 噪音 数据 























“什么 是 噪音 ? ”噪音 是 测量 变量 的 随机 错误 或 偏差 。 给 定 一 个 数值 属性 ， 例 如 price， 我 们 怎 
样 才能 平滑 数据 ， 去 掉 噪音 ?让 我 们 看 看 下 面 的 数据 平滑 技术 。 


1. 分 箱 : 分 箱 方法 通过 考察 “邻居 ”“〔 即 ， 周 围 的 值 〉 来 平滑 存储 数据 的 值 。 存 储 的 值 被 分 布 到 
些 “ 桶 ”或 箱 中 。 Be on dr a 图 3.2 图 示 了 一 些 分 箱 技 
术 。 在 该 例 中 ，price 数据 首先 被 划分 并 存 入 等 深 的 箱 中 深度 3) 。 对 于 按 平均 值 平滑 ， 箱 中 
每 一 个 值 被 箱 中 的 平均 值 蔡 换 。 0 
一 个 值 被 奉 换 为 9。 类 似 地 ， 可 以 使 用 按 中 值 平 滑 。 此 时 ， 箱 中 的 每 一 个 值 被 箱 中 的 中 值 蔡 换 。 
对 于 按 边 界 平滑 ， 箱 中 的 最 大 和 最 小 值 同样 被 视 为 边界 。 箱 中 的 每 一 个 值 被 最 近 的 边界 值 替 换 。 
一 般 来 说 ， 宽 度 越 大 ， 平 滑 效 果 越 大 。 箱 也 可 以 是 等 宽 的 ， 每 个 箱 值 的 区 间 范 围 是 个 常量 。 分 
箱 也 可 以 作为 一 种 离散 化 技术 使 用 ， 将 在 3.5 节 和 第 6 章 进 一 步 讨论 。 
price 的 排序 后 数据 (元) : 4, 8, 15, 21, 21, 24, 25, 28, 34 
划分 为 (等 深 的 ) 箱 : 
箱 1: 4, 8, 15 
箱 25 21, 31, 和 4 


































































































































































































































































































箱 3: 25, 28, 34 
用 平均 值 平滑 : 
箱 1: 9, 9,9 





箱 2: 22, 22, 22 
箱 3: 29, 29, 29 
用 边界 平滑 : 

箱 1: 4, 4, 15 











箱 2: 21, 21, 24 








箱 3: 25, 25, 34 
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3.2 








2. 聚 类 : 


数据 平 请 的 分 箱 方法 












































同 外 者 可 以 被 聚 类 检测 。 聚 类 将 类 似 的 值 组 织 成 群 或 “ 聚 类 ”。 直 观 地 ， 落 在 聚 类 集 


之 外 的 值 被 视 为 局 外 者 〈 图 3.3) 。 第 9 章 将 研究 聚 类 
四 J 
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图 3.3 局 外 者 可 
3. 计算 机 和 人 工 检查 结合 : 可 以 通过 计算 机 和 人 -了 








以 被 聚 类 检测 






































应 用 中 ， 使 用 信息 
符 与 已 知 的 符号 相 比 的 “差异 ” 
































大 于 某 个 闵 值 的 模式 输出 到 一 个 表 中 。 








» 





[检查 结合 的 办 法 来 识别 局 外 者 。 例 如 ， 在 一 种 


里 论 度量 ， 帮 助 识别 手写 体 字 符 数据 库 中 的 局 外 者 。 
局 外 者 模式 可 生 











人 可 以 审查 表 



































搜索 整个 数据 库 快 得 多 。 在 其 后 的 数据 挖掘 应 












































数据 库 中 清除 掉 。 











度量 值 反 映 被 判断 的 字 
EE 是 提供 信息 的 《例如 ， 识 别 有 用 的 数据 
例外 ， 如 字符 “0” 或 “7” 的 不 同 版 本 ) 或 者 是 “垃圾 ”【〔 例 如， 错误 的 字符 ，。 其 差异 程度 
FP 的 模式 ， 识 别 真正 的 垃圾 。 这 比 人 工地 
时， 垃圾 模式 将 1 





4. 回归 : 可 以 通过 让 数据 适合 一 个 函数 《如 回归 函数 来 平滑 数据 。 线 性 回归 涉及 找 出 适合 两 个 
变量 的 “最 佳 ” 直 线 ， 使 得 一 个 变量 能 够 预测 男 一 个 。 多 线性 回归 是 线性 回归 的 扩展 ， 它 涉及 
据 的 数学 方程 式 ， 能 够 帮助 消 





























多 于 两 个 变量 ， 数 据 要 适合 一 个 多 维 面 。 
除 噪 音 。 回 归 将 在 3.4.4 小 节 以 及 第 7 章 讨 论 。 


























许多 数据 平滑 的 方法 也 是 涉及 离散 化 的 数据 归 约 方法 。 例 如 ， 上 再 
属性 的 不 同 值 的 数量 。 对 于 基于 迪 辑 的 数据 挖 扬 方 法 《如 判定 树 归纳 ) ， 这 充当 了 一 种 形式 的 数据 











过 











归 约 。 概 念 分 层 是 一 种 数据 离散 化 形式 ， 也 可 以 








使 用 回归 ， 找 出 适合 数 ] 















































介绍 的 分 箱 技 术 减 少 了 每 个 
于 数据 平滑 。 例如，price 的 概念 分 层 可 以 把 price 


的 值 映射 到 inexpensive、moderately_priced 和 expensive， 从 而 减少 了 挖掘 过 程 所 处 理 的 值 的 数量 。 

















数据 离散 化 将 在 3.5 节 讨论 。 有 些 分 类 方法 ， 如 神经 网 络 ， 有 内 

















的 课题 。 

















置 的 数据 


本 














3.2.3 不 一 致 数据 
对 于 有 些 事 务 ， 所 记录 的 数据 可 能 存在 不 一 致 。 有 些 数据 不 一 致 可 以 使 用 其 它 材 料 人 工地 加 以 





更 正 。 例 妇 
的 例 程 





由 于 数据 集成 ， 也 可 外 
也 可 能 存在 宛 余 。 数 据 集成 和 宛 余数 据 删除 在 3.3.1 小 节 讨论 ， 








1H， 数据 输入 是 的 错误 可 以 使 用 纸 上 的 记录 加 以 更 正 。 这 可 以 与 用 来 帮 肝 
一 块 使 用 。 知 识 工 程 工 共 也 可 以 用 来 检测 违反 限 和 
可 以 查找 违反 函数 依赖 的 值 








| 的 数据 。 例 如 ， 





























平滑 机 制 。 

















纠正 
知道 属性 间 的 函 








编码 不 一 致 
数 依赖 ， 








能 产生 不 一 致 ， 一 个 给 定 的 属性 























3.3 ”数据 集成 和 变换 


数据 挖掘 经 常 需要 数据 集成 





























由 多 个 数据 存储 合并 数据 。 数 据 还 可 






























































转换 成 


武 
异 
准 









































































































































在 不 同 的 数据 库 中 可 能 具有 不 同 的 名 字 。 








于 挖 据 的 





























形式 。 本 节 介 绍 数据 集成 和 数据 变换 。 
3.3.1 数据 集成 

数据 分 析 任务 多 半 涉 及 数据 集成 。 数 据 集成 将 多 个 数据 源 中 的 数据 结合 成 、 存 放 在 一 个 一 致 的 
数据 存储 ， 如 数据 仓库 中 。 这 些 源 可 能 包括 多 个 数据 库 、 数 据 方 或 一 般 文 件 。 

在 数据 集成 时 ， 有 许多 问题 需要 考虑 。 模 式 集成 可 能 是 有 技巧 的 。 来 自 多 个 信息 源 的 现实 世界 
的 实体 如 何 才 能 “匹配 ”? 这 涉及 实体 识别 问题 。 例 如 ， 数 据 分 析 者 或 计算 机 如 何 才能 确信 一 个 数 
据 库 中 的 customer_id 和 另 一 个 数据 库 中 的 cust_numpber 指 的 是 同一 实体 ? 通常 ， 数 据 库 和 数据 仓库 
有 元 数据 一 一 关于 数据 的 数据 。 这 种 元 数据 可 以 帮助 避免 模式 集成 中 的 错误 。 

见 余 是 男 一 个 重要 问题 。 一 个 属性 是 见 余 的 ， 如 果 它 能 由 男 一 个 表 “ 导 出 ”; 如 年 薪 。 属 性 或 
维 命名 的 不 一 致 也 可 能 导致 数据 集中 的 元 余 。 

有 些 见 余 可 以 被 相关 分 析 检 测 到 。 例 如 ， 给 定 两 个 属性 ， 根 据 可 用 的 数据 ， 这 种 分 析 可 以 度量 
一 个 属性 能 在 多 大 程度 上 缠 涵 另 一 个 。 属 性 A 和 B 之 间 的 相关 性 可 用 下 式 度 量 : 

2,.(4- 4)B-B) 
TA,B = (3.1) 





其 中 ，n 是 元 组 个 数 ，A 和 B 分别 是 A 和 有 B 的 平均 值 ，o4 和 os 分 别 是 A 和 B 的 标准 差 %。 妇 
(3.1) 式 的 值 大 于 0,， 则 4 和 B 是 正 相 关 的 ， 意味 4 的 值 随 B 的 值 增加 而 增加 。 该 值 越 大 ， 


纺 涵 男 一 个 的 
值 
值 

















随 











等 于 0， 则 A 和 B 是 独立 的 ， 它 们 之 间 不 相关 
男 一 个 减少 而 增加 。 这 表明 每 一 个 属性 


(n—-Dososp 












































可 能 性 越 大 。 因 





























都 阻 1 














customer_id 和 cust_number 的 相关 性 。 相 关 分 析 在 6.5.2 小 节 进 一 步 讨论 。 








s A 的 平均 值 是 
生生 
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A 的 标准 差 是 


| A-A)? 
4 0 





上 果 

















个 属性 





此 ， 一 个 很 大 的 值 表明 4《〈 或 B) 可 以 作为 元 余 而 被 去 掉 。 如 果 结 果 
。 如 果 结 果 值 小 于 0， 则 4 和 B 是 负 相 关 的 ， 一 个 
FE 男 一 个 出 现 。(3.1) 式 可 以 用 来 检测 上 面 的 














除了 检测 属性 间 的 见 余 外 ，“ 重 复 ” 也 应 当 在 元 组 级 进行 检测 。 重 复 是 指 对 于 同一 数据 ， 存 在 
两 个 或 多 个 相同 的 元 组 。 


数据 集成 的 第 三 个 重要 问题 是 数据 值 冲突 的 检测 与 处 理 。 例 如 ， 对 于 现实 世界 的 同一 实体 ， 来 
自 不 同 数据 源 的 属性 值 可 能 不 同 。 这 可 能 是 因为 表示 、 比 例 或 编码 不 同 。 例 如 ， 重 量 属性 可 能 在 一 
个 系统 中 以 公制 单位 存放 ， 而 在 另 一 个 系统 中 以 英制 单位 存放 。 不 同 旅馆 的 价格 不 仅 可 能 涉及 不 同 
的 货币 ， 而 且 可 能 涉及 不 同 的 服务 〈 如 免费 早餐 ) 和 税 。 数 据 这 种 语义 上 的 异种 性 ， 是 数据 集成 的 
巨大 挑战 。 


仔细 将 多 个 数据 源 中 的 数据 集成 起 来 ， 能 够 减少 或 避免 结果 数据 集中 数据 的 元 余 和 不 一 致 性 。 
这 有 助 于 提高 其 后 挖掘 的 精度 和 速度 。 


















































































































































3.3.2 数据 变换 








数据 变换 将 数据 转换 成 适合 于 挖掘 的 形式 。 数 据 变换 可 能 涉及 如 下 内 容 : 
四 ”平滑 : 去 掉 数 据 中 的 噪音 。 这 种 技术 包括 分 箱 、 聚 类 和 回归 。 
四 ”聚集 : 对 数据 进行 汇总 和 聚集 。 例 如 ， 可 以 聚集 日 销售 数据 ， 计 算 月 和 年 销 
步 用 来 为 多 粒度 数据 分 析 构 造 数据 方 。 
昌 ”数据 泛 化 : 使 用 概念 分 层 , 用 高 层次 概念 替换 低层 次 “原始 ”数据 。 例如 , 分 类 的 属性 , 如 street， 
可 以 泛 化 为 较 高 层 的 概念 ， 如 city 或 country。 类 似 地 ， 数 值 属性 ， 如 age， 可 以 映射 到 较 高 层 
概念 ， 如 youneg, middle-age 和 senior。 
四 规范化: 将 属性 数据 按 比 例 缩放 ， 使 之 落 入 一 个 小 的 特定 区 间 ， 如 -1.0 到 1.0 或 0.0 到 1.0。 
昌 ”属性 构造 (或 特征 构造 ): 可 以 构造 新 的 属性 并 添加 到 属性 集中 ， 以 帮助 挖掘 过 程 。 
平滑 是 一 种 数据 清理 形式 ， 已 在 3.2.2 小 节 讨 论 。 聚集 和 泛 化 也 是 一 种 数据 归 约 形式 ， 并 分 别 将 
在 3.4 和 3.5 小 节 讨 论 . 本 节 ， 我 们 讨论 规范 化 和 属 性 构造 。 
通过 将 属性 数据 按 比 例 缩放 ， 使 之 落 入 一 个 小 的 特定 区 间 ， 如 0.0 到 1.0， 对 属性 规范 化 。 对 于 
距离 度量 分 类 算法 ， 如 涉及 神经 网 络 或 诸如 最 临近 分 类 和 聚 类 的 分 类 算法 ， 规 范 化 特别 有 用 。 如 果 
使 用 神经 网 络 后 向 传播 算法 进行 分 类 挖掘 〈 第 7 章 ) ， 对 于 训练 样本 属性 输入 值 规范 化 将 有 助 于 加 
快 学 习 阶 段 的 速度 。 对 于 基于 距离 的 方法 ， 规 范 化 可 以 帮助 防止 具有 较 大 初始 值 域 的 属性 〈 例 如 ， 
income ) 与 具有 较 小 初始 值 域 的 属性 〈 例 如， 二 进位 属性 ) 相 比 ， 权 重 过 大 。 有 许多 数据 规范 化 的 
方法 ， 我 们 将 学 习 三 种 : 最 小 -最 大 规范 化 、z-score 规范 化 和 按 小 数 定 标 规 范 化 。 
最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 。 假 定 min ,和 max ,分 别 为 属性 A 的 最 小 和 最 大 值 。 
最 小 -最 大 规范 化 通过 计算 
7 一 min， 


V'=———————— (new_maxs—new_mins)+new_ min, (3.2) 
max4 一 min 4 
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额 。 通 常 ， 这 一 



















































































































































































































































































































































































将 4 的 值 v 映射 到 区 间 [new_min% ,new_max4] 中 的 v。 


最 小 -最 大 规范 化 保持 原始 数据 值 之 间 的 关系 。 如 果 今 后 的 输入 落 在 4 的 原 数据 区 之 外 ， 该 方法 
将 面临 “越界 ”错误 。 
例 3.1 假定 属性 income 的 最 小 与 最 大 值 分 别 为 $12,000 和 $98, 000。 我 们 想 映 射 income 到 区 间 
[0.0, 0.1]。 根 据 最 小 -最 大 规范 化 ，income 值 $73,600 将 变换 为 : DL O00 (0)=0.716。 口 
98,000 -12.000 
在 z- score 规范 化 (或 零 -均值 规范 化 ) 中， 属性 4 的 值 基于 A 的 平均 值 和 标准 差 规 范 化 。A 的 
二 v 被 规范 化 为 v'"， 由 下 式 计算 : 
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其 





最 大 -最 小 规范 化 时 ， 该 方法 是 有 用 的 。 
例 3.2 假定 属性 income 的 平均 值 


$73,600 被 转换 为 au 
16.000 










































































小 数 定 标 规 范 化 通过 移动 属性 4 的 小 数 点 位 置 进行 规范 化 。 

















绝对 值 。4 的 值 v 被 规范 化 为 y”， 





下 式 计 算 : 














其 中 , j 是 使 得 Max(dv) < 1 的 最 小 整数 。 


例 3.3 假定 4 的 值 
( 即 ，j=3) 除 每 个 值 。 


注意 ， 规 范 化 将 原来 的 数据 改变 很 多 ， 




































































如 ， 我 们 可 能 根据 属性 height 和 width 添加 属性 
的 分 裂 问题 。 那 里 ， 沿 着 导出 判定 树 ” 的 一 
二 进位 属性 的 and 和 名 字 属 性 的 product。 
的 丢失 信息 ， 这 对 知识 发 现 是 有 用 的 。 





























通过 组 合 








3.4 数据 归 约 


-986 到 917。4 的 最 大 绝对 值 
这 样 ，-986 被 规范 化 为 -0.986。 口 
特别 是 上 述 的 后 两 种 方法 。 
平均 值 和 标准 差 ， 如 果 使 用 z-score 规范 化 ) ， 以 便 

属性 构造 是 由 给 定 的 属性 构造 和 添加 新 的 属性 ， 以 帮助 提高 精度 和 对 高 维 数 据 结 构 的 理解 。 例 
属性 结构 可 以 帮助 平缓 使 
条 路 径 重 复 地 测试 一 个 属性 。 属 性 构造 操作 符 的 例子 包括 
属性 ， 属 性 构造 可 以 发 现 关 于 数据 属性 间 联 系 


Uredo 





其 中 ，A 和 aa 分 别 为 属性 4 的 平均 值 和 标准 差 。 当 属性 























和 标准 差分 别 为 $54,000 和 $16,000。 


4 的 最 大 和 最 小 值 未 知 ， 或 局 外 者 左 


v—A 
On 
(3.3) 


右 了 





VW 



































使 用 z-score 规范 化 ， 值 




















小 数 点 的 移动 位 数 依赖 于 4 的 最 大 


107 
G4) 


为 986。 为 使 用 小 数 定 标 规范 化 ,我 们 用 1,000 





有 必要 保留 规范 化 参数 〈 如 








将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 

















合 属 怕 





























判定 树 算法 分 类 
































假定 你 由 AllElectronics 数据 仓库 选择 了 数据 ， 用 于 分 析 。 数 据 集 将 非常 大 ! 在 海量 数据 上 进行 








复杂 的 数据 分 析 和 挖掘 将 需 
数据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 ， 
































数据 归 约 的 策略 如 下 : 
1. 数据 方 聚 集 ;， 聚集 操作 用 于 数据 方 中 的 数据 。 
维 归 约 : 可 以 检测 3 
数据 压缩 : 使 用 编码 机 制 压 缩 数 据 集 。 























2 





删除 不 相关 、 弱 相关 或 见 余 


数值 压缩 : 用 替代 的 、 较 小 的 数据 表示 替换 或 佑 




















而 不 是 实际 数据 ) 或 非 参 数 方法 ， 如 聚 类 、 选 样 和 使 


Ke 





判定 树 将 在 第 3 章 详细 介绍 











的 属性 或 维 。 


计数 据 ， 如 参数 模型 〈 只 需 
直方 图 。 





















































要 很 长 时 间 ， 使 得 这 种 分 析 不 现实 或 不 可 行 。 


它 小 得 多 ， 但 仍 接近 地 保持 原 数据 的 完整 性 。 
这 样 ， 在 归 约 后 的 数据 集 上 挖掘 将 更 有 效 ， 并 产生 相同 〈 或 几乎 相同 ) 的 分 析 结 果 。 














要 存放 模型 参数 ， 














5. 离散 化 和 概念 分 层 产生 : 属性 的 原始 值 
抽象 层 上 的 数据 ， 是 数据 挖掘 的 一 种 强 有 力 的 工 




















那里 整整 一 节 讨 论 该 课题 。 

















策略 1 至 4 在 丁 的 剩余 部 分 讨论 。 用 于 数据 月 




















气节 省 的 时 间 。 





3.4.1 数据 方 聚 集 















































j 区 间 值 或 较 高 层 的 概念 替换 。 概 念 分 层 允 许 挖掘 多 个 


























kt 。 我 们 将 概念 分 


慨 的 自动 产生 推迟 到 3.5 节 ， 























E 纵 的 时 间 不 应 当 超 过 或 “抵消 ”在 归 约 后 数据 上 挖 








想象 你 已 经 为 你 的 分 析 收 集 了 数据 。 这 些 数 据 由 AllElectronics 1997 到 1999 年 每 季度 的 销售 数 








据 组 成 。 然 而 ， 你 感 兴趣 的 是 年 销售 (每 年 的 总 和 )〉 ， 而 不 是 每 季度 的 总 和 。 可 以 对 这 种 数据 再 聚 
集 ， 使 得 结果 数据 汇总 每 年 的 总 销售 ， 而 不 是 每 季度 的 总 销售 。 该 聚集 如 











小 得 多 ， 并 不 于 失 分 析 任 务 所 需 的 信息 。 





$224, 000 
$408, 000 
$350, 000 
$586, 000 


3.4 AllElectronics 1997 年 到 1999 























数据 方 已 在 第 2 章 讨论 。 为 完整 起 见 ， 我 们 在 这 人 简略 回 
如 ， 图 3.5 所 示 数 据 方 用 于 AllElectronics 所 有 
个 聚集 值 ， 对 应 于 多 维 空间 的 一 个 数据 点 。 每 个 属 怕 
据 分 析 。 例 如 ，branch 的 分 层 允许 分 部 按 它们 的 ] 
进行 快速 访问 ， 因 此 它 适 合 联机 数据 分 析 和 数据 挖掘。 
































图 3.4 所 示 。 结 果 数 据 量 











售 数据 按 季 度 显 示 ， 碳 





集 以 提供 年 和 
































的 销售 数据 。 左 部 销 





肖 售 额 




































































下 。 数 据 方 存放 多 维 聚 集 信息 。 例 
多 维 数据 分 析 。 每 个 单元 存放 一 
存在 概念 分 层 ， 允 许 在 多 个 抽象 层 进行 数 
成 地 区 。 数 据 方 提供 对 预计 算 的 汇总 数据 











创建 在 最 低层 的 数据 方 称 为 基本 方 体 。 最 高 层 抽 象 的 数据 方 称 为 顶点 方 体 。 对 于 图 3.5 的 销售 


数据 ， 顶 点 方 体 将 给 出 一 个 汇总 值 一 一 所 有 商品 类 型 、 所 有 分 部 三 年 

















数据 方 称 为 方 体 ， 因 此 “数据 方 ” 可 以 看 作 方 体 的 格 。 每 个 较 高 层 的 



























































的 总 销售 额 。 对 不 同 层 创 建 的 
| 象 将 进一步 减少 结果 数据 。 





























第 2 章 讨 论 过 。 


FE 务 相关 的 最 小 方 体 。 该 问题 也 已 在 


基本 方 体 应 当 对 应 于 感 兴趣 的 实体 ， 如 sales 或 customer。 换 言 之 ， 最 低层 对 于 分 析 应 当 是 有 
的 。 由 于 数据 方 提供 了 对 预计 算 的 汇总 数据 的 快速 访问 ， 在 响应 关于 聚集 信息 的 查询 时 应 当 使 用 
它们 。 当 响应 OLAP 查询 或 数据 挖掘 查询 时 ， 应 当 使 用 与 给 定 从 




















全 和 9 人 995 
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图 3.5 AllElectronics 销售 数据 方 





3.4.2 维 归 约 






































用 于 数据 分 析 的 数据 可 能 包含 数 以 百 计 的 属性 ,其 中 大 部 分 属性 与 挖掘 任 务 不 相关 ， 是 元 余 的 。 
例如 , 如 果 分 析 任务 是 按 顾客 听 到 广告 后 , 是 否 愿意 在 AllElectronics 买 流行 的 新 款 CD 将 顾客 分 类 ， 
与 属性 age, music_taste 不 同 ， 诸 如 顾客 的 电话 号 但 等 属性 多 半 是 不 相关 的 。 尽 管 领域 专家 可 以 挑选 
出 有 用 的 属性 ， 但 这 可 能 是 一 项 困难 而 费时 的 任务 ， 特 别 是 当 数据 的 行为 不 清楚 的 时 候 更 是 如 此 。 

遗漏 相关 属性 或 留 下 不 相关 属性 是 有 害 的 ， 会 导致 所 用 的 挖掘 算法 无 所 适 从 。 这 可 能 导致 发 现 的 模 
式 质量 很 差 。 此 外 ， 不 相关 或 元 余 的 属性 增加 了 数据 量 ， 可 能 会 减 慢 挖掘 进程 。 


维 归 约 通过 删除 不 相关 的 属性 《或 维 ) 减少 数据 量 。 通 常 使 用 属性 子 集 选 择 方法 。 属 性 子 集 选 
择 的 目标 是 找 出 最 小 属性 集 ， 使 得 数据 类 的 概率 分 布 尽 可 能 地 接近 使 用 所 有 属性 的 原 分 布 。 在 压缩 
的 属性 集 上 挖掘 还 有 其 它 的 优点 。 它 减少 了 出 现在 发 现 模式 上 的 属性 的 数目 ,使 得 横 式 更 易于 理解 。 

“如 何 找 出 原 属性 的 一 个 “好 的 ” 子 集 ? ”4 个 属性 有 2 个 可 能 的 子 集 。 穷 举 搜索 找 出 属性 的 
最 佳 子 集 可 能 是 不 现实 的 ， 特 别 是 当 4 和 数据 类 的 数目 增加 时 。 因 此 ， 对 于 属性 子 集 选 择 ， 通 常 使 
用 压缩 搜索 空间 的 启发 式 算 法 。 通 常 ， 这 些 算法 是 贪心 算法 ， 在 搜索 属性 空间 时 ， 总 是 做 看 上 去 是 
最 佳 的 选择 。 它 们 的 策略 是 做 局 部 最 优选 择 ， 期 望 由 此 导致 全 局 最 优 解 。 在 实践 中 ， 这 种 贪心 方法 
是 有 效 的 ， 并 可 以 逼近 最 优 解 。 

“最 好 的 ”《〈 或 “最 差 的 ”) 属性 使 用 统计 测试 来 选择 。 这 种 测试 假定 属性 是 相互 独立 的 。 也 
可 以 使 用 一 些 其 它 属性 估计 度量 ， 如 使 用 信息 增益 度量 建立 分 类 判定 树 "。 


属性 子 集 选择 的 基本 启发 式 方法 包括 以 下 技术 ， 其 中 一 些 图 示 在 图 3.6 中 。 


















































































































































































































































































































































































































































































































































1， 逐步 向 前 选择 : 该 过 程 由 空 属性 集 开始 ， 选 择 原 属性 集中 最 好 的 属性 ， 并 将 它 添加 到 该 集合 
中 。 在 其 后 的 每 一 次 迭代 ， 将 原 属 性 集 剩 下 的 属性 中 的 最 好 的 属性 添加 到 集合 中 






































该 

2， 逐 步 向 后 删除 ;该 过 程 由 整个 属性 集 开 始 。 在 每 一 步 ， 删 除 掉 尚 在 属性 集中 的 最 坏 属 性 。 

3， 向 前 选择 和 向 后 删除 的 结合 : 向 前 选择 和 向 后 删除 方法 可 以 结合 在 一 起 , 每 一 步 选择 一 个 最 

好 的 属性 ， 并 在 剩余 属性 中 删除 一 个 最 坏 的 属性 。 

方法 1 到 3 的 结束 条 件 可 以 有 多 种 。 过 程 可 以 使 用 一 个 阔 值 来 确定 是 否 停止 属性 选择 过 程 。 

" 判定 树 归 纳 : 判定 树 算法 ， 如 ID3 和 C4.5 最 初 是 用 于 分 类 的 。 判 定 树 归 纳 构造 一 个 类 似 于 流程 

图 的 结构 ， 其 每 个 内 部 〈 非 树叶 ) 结 点 表示 一 个 属性 上 的 测试 ， 每 个 分 校对 应 于 测试 的 一 个 输 

出 ; 每 个 外 部 (树叶 〉 绪 点 表示 一 个 判定 类 。 在 每 个 结 点 ， 算 法 选择 “最 好 ”的 属性 ， 将 数据 
划分 成 类 。 















































































































































信息 增益 度量 在 5.3.2 和 7.3.1 中 详细 介绍 介绍 。 在 3.5.1 小 节 中 结合 属性 离散 归 约 要 介绍 。 









































当 判 定 树 归纳 用 于 属性 子 集 选择 时 ， 树 由 给 定 的 数据 构造 。 不 出 现在 树 中 的 所 有 属性 假定 是 不 
相关 的 。 现在 枢 中 的 局 性 形成 的 后 的 局 性 了 入， 这 种 属性 选择 方法 将 在 第 5 章 讨论 概念 描述 时 
更 详细 地 讨论 。 












































人 前 选择 向 后 删除 判定 树 归纳 
{B12, A3,B4,A5,B6) {Bl,A2,A3, A4,B5,B6) {Bl1,B2,A3, BA4, a5,A6) 
初始 化 归 芍 集 : — {Bl,A3,L4, a5,A6) 
0 > {B14,A5, a6) 
> (AL) 十 归 约 后 的 属性 集 : 
玉 {总 1,A4} {1,84,a6)} 
-2 归 芍 后 的 属性 集 : 
{ 访 1,84, 训 0) 
三 归 芍 后 的 属性 集 : 
{ 记 1,&4, 训 人 6) 








3.6: 属性 子 集 选择 的 贪心 (启发 式 ) 方 法 
3.4.3 数据 压缩 





在 数据 压缩 时 ， 应 用 数据 编码 或 变换 ， 以 便 得 到 原 数据 的 归 约 或 “压缩 ”表示 。 如 果 原 数据 可 
以 由 压缩 数据 重新 构造 而 不 丢失 任何 信息 ， 则 所 使 用 的 数据 压缩 技术 是 无 损 的 。 如 果 我 们 只 能 重新 
构造 原 数据 的 近似 表示 ， 则 该 数据 压缩 技术 是 有 损 的 。 有 一 些 很 好 的 串 压 缩 算法 。 尽 管 它 们 是 无 损 
的 ， 但 它们 只 允许 有 限 的 数据 操作 。 本 小 节 我 们 介绍 另外 两 种 流行 、 有 效 的 有 损 数据 压缩 方法 : 小 
波 变换 和 主要 成 分 分 析 。 


小 波 变换 
离散 小 波 变换 (DWT) 是 一 种 线性 信号 处 理 技术 ， 当 用 于 数据 向 量 忆 时 ， 将 它 转换 成 不 同 的 数 
值 向 量 小 波 系 数 D'。 两 个 向 量具 有 相同 的 长 度 。 


“ 嗯 ”， 你 可 能 会 奇怪 。“ 如 果 小 波 变 换 后 的 数据 与 原 数据 的 长 度 相 等 ， 这 种 技术 如 何 用 于 数 
据 压 缩 ?》” 关 键 在 于 小 波 变换 后 的 数据 可 以 裁减 。 仅 存放 一 小 部 分 最 强 的 小 波 系数 ， 就 能 保留 近似 
的 压缩 数据 。 例 如 ,保留 大 于 用 户 设 定 的 某 个 闪 值 的 小 波 系数 ， 其 它 系 数 置 为 0。 这 样 ， 结 果 数据 
表示 非常 稀 玖 ， 使 得 如 果 在 小 波 空间 进行 的 话 ， 利 用 数据 稀 疏 特点 的 操作 计算 得 非常 快 。 该 技术 也 
能 用 于 消除 噪音 ， 而 不 会 平滑 掉 数 据 的 主要 特性 ， 使 得 它们 也 能 有 效 地 用 于 数据 清理 。 给 定 一 组 系 
数 ， 使 用 所 用 的 DWT 的 逆 ， 可 以 构造 原 数 据 的 近似 。 


DWT 与 离散 富里 叶 变 换 (DFT) 有 密切 关系 。DFT 是 一 种 涉及 正弦 和 余 艾 的 信号 处 理 技术 。 然 

一 般 地 说 ，DWT 是 一 种 较 好 的 有 损 压 缩 。 即 ， 对 于 给 定 的 数据 向量 ， 如 果 DWT 和 DFT 保留 

0 DWT 将 提供 原 数据 更 精确 的 近似 。 因 此 ， 对 于 等 价 的 近似 ，DWT 比 DFT 需要 的 
空间 小 。 不 象 DFT， 小 波 空间 局 部 性 相当 好 ， 有 助 于 保留 局 部 细节 。 


















































































































































































































































































































































0.8 


0.5 
0 
0.4 0.4 
02 0.2 
0.0 
0.0 
=10°0357 0.0 03 :1:00:13. "30 0 2 4 所 
fa Har 2 th) Daubechies 4 


图 3.7 小 波 族 的 例子 。 

只 有 一 种 DFT， 但 有 若干 族 DWT。 图 3.7 给 出 一 些小 波 族 。 流 行 的 小 波 变换 包括 Haar_2， 

Daubechies 4 和 Daubechies_6 变换 。 应 用 离散 小 波 变换 的 一 般 过 程 使 用 一 种 分 层 金 字 塔 算法 ， 它 在 

每 次 迭代 将 数据 减 半 ， 导 致 很 快 的 计算 速度 。 该 方法 如 下 : 

1.， 输入 数据 向 量 的 长 度 工 必须 是 2 的 整数 寡 。 必 要 时 ， 通 过 在 数据 向 量 后 添加 0， 这 一 条 件 可 以 
满足 。 

2. 每 个 变换 涉及 应 用 两 个 图 数 。 第 一 个 使 用 某 种 数据 平滑 ， 如 求 和 或 加 权 平 均 。 第 二 个 进行 加 权 

差分 ， 产 生 数 据 的 细节 特征 。 


3. 两 个 函数 作用 于 输入 数据 对 ， 产 生 两 个 长 度 为 L/2 的 数据 集 。 一 般 地 ， 它 们 分 别 代表 输入 数据 
的 平滑 后 或 低频 的 版 本 和 它 的 高 频 内 容 。 


4. 两 个 函数 递归 地 作用 于 前 面 循环 得 到 的 数据 集 ， 直 到 结果 数据 集 的 长 度 为 2。 
5. 由 以 上 迭代 得 到 的 数据 集中 选择 值 ， 指 定 其 为 数据 变换 的 小 波 系数 。 

等 价 地 ， 可 以 将 矩阵 乘法 用 于 输入 数据 ， 以 得 到 小 波 系 数 。 所 用 的 矩阵 依赖 于 给 定 的 DWT。 
和 矩阵 必须 是 标准 正 交 的 。 即 ， 它 们 的 列 是 单位 向 量 并 相互 正 交 ， 使 得 矩阵 的 逆 是 它 的 转 置 。 尽 管 受 
篇 幅 限 制 ， 这 里 我 们 不 再 讨论 ， 但 这 种 性 质 允 许 由 平滑 和 平滑 - 差 数 据 集 重 构 数据 。 通 过 将 矩阵 分 解 
成 几 个 稀 下 和 矩阵 ， 对 于 长 度 为 款 的 输入 向 量 ，“ 人 快速 DWT” 算 法 的 复杂 度 为 0(n)。 

小 波 变换 可 以 用 于 多 维 数据 ， 如 数据 方 。 可 以 按 以 下 方法 做 : 首先 将 变换 用 于 第 一 个 维 ， 然 后 
第 二 个 ， 如 此 下 去 。 计 算 复杂 性 对 于 方 中 单 元 的 个 数 是 线性 的 。 对 于 稀 玻 或 倾斜 数据 、 具 有 有 序 属 
性 的 数据 ， 小 波 变换 给 出 很 好 的 结果 。 据 报道 ， 小 波 变 换 的 有 损 压 缩 比 当 前 的 商业 标准 JPEG 压缩 
好 。 小 波 变换 有 许多 实际 应 用 ,包括 手写 体 图 象 压 缩 、 计 算 机 视觉 、 时 间 序 列 数据 分 析 和 数据 清理 。 
主要 成 分 分 析 









































































































































































































































































































































































































































































































































这 里 ， 作 为 一 种 数据 压缩 方法 ， 我 们 直观 地 介绍 主要 成 分 分 析 。 详 细 的 讨论 已 超出 本 书 范围 。 


假定 待 压缩 的 数据 由 N 个 元 组 或 数据 向 量 组 成 ， 取 自 大 维 。 主 要 成 分 分 析 (PCA， 又 称 
Karhunen-Loeve 或 KL 方法 ) 搜索 c 个 最 能 代表 数据 的 大 维 正 交 向 量 ， 这 里 c<k。 这样 ， 原 来 的 数 
据 投 影 到 一 个 较 小 的 空间 ， 导 致 数据 压缩 。PCA 可 以 作为 一 种 维 归 约 形式 使 用 。 然 而 ， 不 象 属性 子 
集 选 择 通过 保留 原 属性 集 的 一 个 子 集 来 减少 属性 集 的 大 小 ，PCA 通过 创建 一 个 蔡 换 的 、 较 小 的 变量 
集 “组合” 属性 的 本 质 。 原 数据 可 以 投影 到 该 较 小 的 集合 中 。 


基本 过 程 如 下 : 


1. 对 输入 数据 规范 化 ， 使 得 每 个 属性 都 落 入 相同 的 区 间 。 此 步 确保 具有 较 大 定义 域 的 属性 不 会 主 
宰 具 有 较 小 定义 域 的 属性 。 


































































































































































































2. PCA 计算 c 个 规范 正 交 向 量 ， 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 ， 每 一 个 都 垂直 于 另 


一 个 。 


这 





3. 对 主 
的 方差 信息 





如 此 下 去 。 





Yo 这 研 


4. 





据 可 以 通过 将 


你 必须 首先 ; 











六 
百 县 


既然 主要 成 分 根据 “ 


些 向 量 被 称 为 主要 成 分 。 输 


要 成 分 按 “ 意 义 ” 或 强度 降序 排列 。 主 要 成 分 基本 上 充当 数据 的 一 
息 。 即 ， 对 轴 

















进行 排 











i 入 数据 是 主要 成 分 的 线性 组 合 。 











组 新 坐标 轴 ， 提 供 重要 
示 的 数据 方差 最 大 ， 第 二 个 显示 的 方差 次 之 ， 




















序 ， 使 得 第 








个 轴 显 








例 如 ， 图 











3.8 展示 对 于 原来 映射 到 轴 X17 和 X2 的 给 定数 据 集 的 两 个 主要 成 分 Y7 和 








帮助 识别 数据 中 的 分 组 或 模式 。 
X2 




















图 3.8 主要 成 分 分 析 。Y7 和 到 是 给 定数 据 的 前 两 个 主要 成 分 
意义 ”降序 排列 ， 就 可 
压缩 数据 。 使 用 最 强 的 主要 成 分 ， 应 当 可 能 重 构 原 数据 的 很 好 的 近似 值 。 





以 通过 











去 掉 较 弱 的 成 分 〈 即 ， 方 差 较 小 的 那些 ) 来 














PCA 计算 花费 低 ， 可 以 用 于 有 序 和 无 序 的 
问题 归 约 为 2 维 来 处 理 。 
各 它 归 约 为 2-D 方 体 ， 如 具有 维 
变换 相 比 ，PCA 能 较 好 地 处 理 稀疏 数据 ， 而 小 波 








3.4.4 数值 归 约 


“我 们 能 通过 选择 替代 的 、 


于 这 一 目的 。 这 些 技术 可 以 是 有 参 的 ， 也 可 以 是 无 参 的 。 对 于 有 参 方法 ， 使 用 一 个 模型 来 
而 不 是 实际 数据 。 








使 得 只 需 


要 存放 参数 ， 
































属性 ， 并 且 可 以 处 理 稀 疏 和 倾斜 数据 。 多 于 2 维 的 数 
如 ， 对 于 具有 维 item_type, branch 和 year 的 3-D 数据 方 ， 
item_type 和 branch x year 的 方 体 。 与 数据 压缩 的 小 波 
变换 更 适合 高 维 数据 。 








例 







































































“ 较 小 的 ”数据 表示 形式 来 减少 数据 量 吗 ? ”数值 归 约 技术 可 以 用 
FE 估 数据 ， 
FE 模 型 是 一 个 例子 ， 它 
































(局 外 者 也 可 能 被 存放 。)〉 对 数 线 怕 











估 








计 离 散 的 多 维 概率 分 布 。 
让 我 们 来 看 看 | 














回归 和 对 数 线性 模型 


回归 和 对 数 线性 


的 线性 函数 

















这 里 ,假定 了 的 方差 是 常量 。 系 数 a 和 BB 和 和 
用 最 小 平方 法 求 得 , 使 得 分 离 数据 的 实际 直线 与 该 ] 














响应 变量 是 多 维 








特征 向 量 的 线性 E 











对 数 线 性 模型 近似 离散 的 多 维 























计 具 有 离散 属 1 








存放 数据 归 约 表示 的 非 参数 的 方法 包括 直方 
F 面 提 到 的 每 种 数值 归 约 技术 。 


模型 可 以 用 来 近似 给 定数 据 。 在 线性 回归 中 ， 对 数据 建 模 ， 使 之 适合 
例如 ， 可 以 用 以 下 公式 ， 将 随机 变量 














生 集 的 基本 方 体 














区 








、 聚 类 和 选 样 。 























条 直线 。 
点 变 量 ) 表示 为 另 一 随机 变量 X《〈 称 为 预测 变量 ) 























了 《〈 称 作 响 瓜 











Y=a+fX 

(3.6) 

厂 取 和 和 斜率。 系数 可 以 
直线 间 的 误差 最 小 。 多 元 回归 是 线性 回归 的 扩充 ， 











称 为 回归 系数 ) 分 别 为 直线 的 了 轴 






































函数 。 


概率 分 布 。 基 于 较 小 的 方 体形 成 数据 方 的 格 ， 该 方法 可 以 用 于 估 
每 个 单元 的 概率 。 这 允许 由 较 低 秩 的 数据 方 构造 较 高 秩 的 数据 方 。 























这 样 ， 对 数 线性 对 于 数据 压缩 是 有 用 的 (因为 较 小 秩 的 方 体 总 共 占 用 的 空间 小 于 基本 方 体 占用 的 空 
间 〉， 对 数据 平滑 也 是 有 用 的 (因为 与 用 基本 方 体 进行 估计 相 比 ， 用 较 小 秩 的 方 体 对 单元 进行 估计 
选 样 变化 小 一 些 ) 。 


回归 和 对 数 线性 模型 都 可 以 用 于 稀 疏 数据 ， 尽 管 它 们 的 应 用 可 能 是 受 限 的 。 虽然 两 种 方法 都 可 
以 用 于 倾斜 数据 ， 回 归 可 望 更 好 。 当 用 于 高 维 数 据 时 ， 回 归 可 能 是 计算 密集 的 ， 而 对 数 线 性 模型 表 
现 出 很 好 的 可 规模 性 ， 可 以 扩展 到 10 维 左右 。 回 归 和 对 数 线性 模型 将 在 7.8 节 进 一 步 讨论 。 


直方 图 


直方 图 使 用 分 箱 近似 数据 分 布 ， 是 一 种 流行 的 数据 归 约 形 式 。 属 性 4 的 直方 图 将 A 的 数据 分 布 
划分 为 不 相交 的 子 集 ， 或 桶 。 桶 安放 在 水 平 轴 上 ， 而 桶 的 高 度 〈 和 面积 ) 是 该 桶 所 代表 的 值 的 平均 
频率 。 如 果 每 个 桶 只 代表 单个 属性 值 /频率 对 ， 则 该 桶 称 为 单 桶 。 通 常 ， 桶 表示 给 定 属性 的 一 个 连续 
区 间 。 

例 3.4 下 面 的 数据 是 AllElectronics 通常 销售 的 商品 的 单价 表 《 按 $ 取 整 ) 。 已 对 数据 进行 了 排 
序 : 1, 1,5, 5, 5,5, 5, 10, 10, 10, 10, 12, 14, 14, 14, 15, 15, 15, 15, 15, 15, 18, 18, 18, 18, 18, 18, 18, 18, 20， 
20, 20, 20, 20, 20, 21, 21, 21, 21, 25, 25, 25, 25, 25, 28, 28, 30, 30, 30 


图 3.9 使 用 单 桶 显示 了 这 些 数据 的 直方 图 。 为 进一步 压缩 数据 ， 通 常 让 一 个 桶 代表 给 定 属性 的 
一 个 连续 值 域 。 在 图 3.10 中 每 个 桶 代表 price 的 一 个 不 同 的 $10 区 间 。 口 
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3.9 ”使 用 单 桶 的 price 直方 图 每 个 桶 代表 一 个 price 值 /频率 对 
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3.10 ”Price 的 直方 图 ， 值 被 聚集 使 得 每 个 桶 都 有 $10 宽 
“如 何 确定 桶 和 属性 值 的 划分 ? ”有 一 些 划分 规则 ， 包 括 下 面 的 一 些 : 
昌 等 宽 : 在 等 宽 的 直方 图 中 ， 每 个 桶 的 宽度 区 间 是 一 个 常数 (如 图 3.10 中 每 个 桶 的 宽度 为 $10〉。 


























































































































昌 ”等 深 (或 等 高 ) : 在 等 深 的 直方 图 中 ， 桶 这 样 创建 ， 使 得 每 个 桶 的 频率 粗略 地 为 常数 〈 即 ， 每 
个 桶 大 致 包含 相同 个 数 的 临近 样本 ) 。 


昌 。V- 最 优 : 给 定 桶 个 数 ， 如 果 我 们 考虑 所 有 可 能 的 直方 图 ，V- 最 优 直方 图 是 具有 最 小 偏差 的 直方 
图 。 直 方 图 的 偏差 是 每 个 桶 代表 的 原 数据 的 加 权 和 ， 其 中 权 等 于 桶 中 值 的 个 数 。 


上 ”MaxDiff: 在 MaxDiff 直方 图 中 ， 我 们 考虑 每 对 相 邻 值 之 间 的 差 。 桶 的 边界 是 具有 有 -1 个 最 大 差 
的 对 ; 这 里 ，B 由 用 户 指 定 。 


V- 最 优 和 MaxDiff 直方 图 看 来 是 最 精确 和 最 实用 的 。 对 于 近似 稀 蓝 和 稠密 数据 ， 以 及 高 倾斜 和 
一 致 的 数据 ， 直 方 图 是 高 度 有 效 的 。 上 面 介绍 的 单 属 性 直方 图 可 以 推广 到 多 属性 。 多 维 直方 图 可 以 
表现 属性 间 的 依赖 。 业 已 发 现 ， 这 种 直方 图 对 于 多 达 5 个 属性 能 够 有 效 地 近似 数据 。 对 于 更 高 维 ， 
多 维 直方 图 的 有 效 性 尚 需 进一步 研究 。 对 于 存放 具有 高 频率 的 例外 者 ， 单 桶 是 有 用 的 。 直 方 图 将 如 
5.5 节 进 一 步 讨论 。 


限 类 


聚 类 技术 将 数据 元 组 视 为 对 象 。 它 将 对 象 划分 为 群 或 聚 类 ， 使 得 在 一 个 聚 类 中 的 对 象 “ 类 似 ”， 
但 与 其 它 聚 类 中 的 对 象 “ 不 类 似 ”。 通 常 ， 类 似 性 基于 距离 ， 用 对 象 在 空间 中 的 “接近 ”程度 定义 。 
聚 类 的 “质量 ”可 以 用 “直径 ”表示 ;而 直径 是 一 个 聚 类 中 两 个 任意 对 象 的 最 大 距离 。 质 心 距 离 是 
聚 类 质量 的 另 一 种 度量 ， 它 定义 为 由 聚 类 质心 〈 表 示 “ 平 均 对 象 ”， 或 聚 类 空间 中 的 平均 点 ) 到 每 
个 聚 类 对 象 的 平均 距离 。 图 3.11 展示 关于 顾客 在 一 个 城市 中 位 置 的 顾客 数据 2-D 图 ,每 个 聚 类 的 质 
心 用 “+” 显 示 ， 三 个 数据 聚 类 已 标 出 。 













































































































































































































































































































































































































































































































































































图 3.11 顾客 数据 的 2-D 图 , 展示 关于 顾客 在 一 个 城市 中 的 


位 置 ， 有 三 个 聚 类 ， 每 个 聚 类 的 质心 用 "+" 标 记 
































在 数据 归 约 时 ， 用 数据 的 聚 类 表示 替换 实际 数据 。 该 技术 的 有 效 性 依赖 于 数据 的 性 质 。 如 果 数 
据 能 够 组 织 成 不 同 的 聚 类 ， 该 技术 有 效 得 多 。 

在 数据 库 系 统 中 ， 多 维 索引 树 主 要 用 于 提供 对 数据 的 快速 访问 。 它 也 能 用 于 分 层 数据 的 归 约 ， 
提供 数据 的 多 维 聚 类 。 这 可 以 用 于 提供 查询 的 近似 回答 。 对 于 给 定 的 数据 集合 ， 索 引 树 动态 地 划分 
多 维 空间 ， 其 树 根 结 点 代表 整个 空间 。 通 常 ， 这 种 树 是 平衡 的 ， 由 内 部 结 点 和 树叶 结 点 组 成 。 每 个 
父 结 点 包含 一 些 关 键 字 和 指向 子女 结 点 的 指针 ， 子 女 结 点 一 起 代表 父 结 点 代表 的 空间 。 每 个 树叶 结 
点 包含 指向 它 所 代表 的 数据 元 组 《或 实际 元 组 ) 的 指针 。 






































































































































这 样 ， 索 引 树 可 以 在 不 同 的 清晰 度 或 抽象 层 存放 聚集 和 细节 数据 。 它 为 数据 集合 上 














3396 5411 | 8392 9544 





图 3.12 ”给 定数 据 集 的 B+ 树 的 根 



































4 聚 类 提供 了 


分 层 结构 ， 其 中 ， 每 个 聚 类 有 一 个 标号 ， 存 放 包 含 在 聚 类 中 的 数据 。 如 果 我 们 把 父 结 点 的 每 个 子女 





























向 数据 键 986, 3396, 5411, 8392 和 9544 的 指针 。 假 定 树 包含 10,000 个 元 组 ， 其 键 值 
基 键 值 分 别 从 1 到 985, 986 到 3395，3 
前 大 约 包 含 10,000/6 个 数据 项 。 类 似 地 ， 每 个 桶 
数据 。 作 为 数据 清晰 度 的 一 种 形式 使 用 多 维 索引 
和 E 索 引 树 包括 R- 树 、 四 又 树 和 它们 的 变形 。 他 们 都 非常 适合 处 到 


则 树 中 的 数据 可 以 月 
5411 到 8391，8392 3 
被 分 成 较 小 的 桶 ， 允 许 在 更 细 的 层 ? 
每 一 维 属 性 值 的 次 序 。 多 名 




















和 倾斜 数据 。 

















选 样 











的 等 深 直 方 图 近似 ， 
9543，9544 到 9999。 每 个 


聚集 



































有 许多 定义 聚 类 和 聚 # 




























































































看 作 一 个 桶 ， 则 索引 树 可 以 看 作 一 个 分 层 的 直方 图 。 例如， 考虑 图 3.10 所 示 B+ 树 的 根 ， 它 具有 指 














人 














质量 的 度量 。 聚 类 方法 将 在 第 8 章 进 一 步 讨论 。 


| 树 依赖 于 
穆 琉 数据 





到 9999。 





396 到 5410， 




















选 样 可 以 作为 一 种 数据 归 约 技术 使 用 ， 因 为 它 允 许 用 数据 的 较 小 随机 样本 《〈 子 集 》 表示 大 的 数 
据 集 。 假 定 大 的 数据 集 忆 包含 个 元 组 。 我 们 看 看 对 D 的 可 能 选 样 。 


”简单 选择 个 样本 , 不 回放 (SRSWOR): 由 DD 的 N 个 元 组 中 抽取 nn 个 样本 Ca<N) ; 其 中 ，D 


中 任何 元 组 被 抽取 的 概率 均 为 IN。 即 ， 所 有 元 组 是 等 可 能 的 。 
上 四 ”简单 选择 7 个 样本 ， 回 放 (SRSWR): 该 方法 类 似 于 SRSWOR， 不 同 在 于 当 一 个 元 组 被 抽取 后 ， 
EF， 一 个 元 组 被 抽取 后 ， 它 又 被 放 回 D， 以 便 它 可 以 再 次 被 抽取 。 
的 元 组 被 分 组 放 入 M 个 互 不 相交 的 “ 聚 类 ”， 
m < M。 例 如 ， 数 据 库 中 元 组 通常 一 次 取 
用 于 页 ， 得 到 元 组 的 聚 类 样本 ， 





记录 它 ， 然 后 放 
四 聚 类 选 样 ， 如 果 
单 随机 选 样 ， 这 是 
聚 类 。 例 如 ， 可 以 将 SRSWOR 
四 ”分 层 选 样 :如果 DD 被 划分 成 互 不 相交 的 部 分 ， 称 作 “ 层 ”， 则 
可 以 得 到 D 的 分 层 选 样 。 特 别 是 当 数 据 倾斜 时 ， 这 可 以 帮助 古 














































































































由 此 得 到 数据 的 归 


则 可 以 得 到 聚 类 
以 视 为 一 个 
约 表示 。 


页 ， 这 样 每 页 就 可 




















通过 对 每 一 层 的 简 利 




















保 样 本 的 代表 性 











固定 


























FE。 全 

















的 m 个 简 


随机 选 样 就 
上 如， 可 以 得 


到 关于 顾客 数据 的 一 个 分 层 选 样 ， 其 中 分 层 对 顾客 的 每 个 年 龄 组 创建 。 这 样 ， 具 有 最 少 顾客 数 
目的 年 龄 组 肯定 能 够 表示 。 


这 些 选 样 如 





采用 选 样 进行 数据 归 约 的 优点 是 ,得 到 样本 的 花费 正比 例 于 样本 的 大 小 n, 而 不 是 数据 
生子 线性 (sublinear) 于 数据 的 大 小 。 其 它 数 据 归 约 技术 至 少 需要 完全 扫 
E 仅 随 数据 的 维 数 4 线性 地 增加 ;而 





此 ， 选 样 的 复杂 4 
的 样本 大 小 ， 选 样 的 复杂 怕 














图 3.13 所 示 。 它 们 代表 最 常 月 














的 数据 归 约 选 相 














的 大 小 N。 











描 D。 对 



































性 随 4 指数 增长 。 




















限定 理 ) 估计 一 个 给 定 的 函数 所 需 的 样本 大 





的 渐进 提炼 ， 选 相 

















于 数据 归 约 时 ， 选 样 最 常用 3 




















它 技 术 ， 如 使 用 直方 图 ， 复 杂 
































9 答案 集 查 询 。 在 指定 的 误差 范围 内 ， 可 以 确定 (使 用 中 心 极 
、。 样 本 的 大 小 n 相对 于 可 能 非常 小 。 对 于 归 约 数据 
是 一 种 自然 选择 。 这 样 的 集合 可 以 通过 简单 地 增加 样本 大 小 而 进一步 提炼。 
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分 层 选 样 




















图 3.13” 选 样 可 以 用 于 数据 归 约 

















3.5 ”离散 化 和 概念 分 层 产 生 











通过 将 属性 域 划分 为 区 间 ， 离 散 化 技术 可 以 用 来 减少 给 定 连 续 属性 值 的 个 数 。 区 间 的 标号 可 以 
蔡 代 实际 的 数据 值 。 如 果 使 用 基于 判定 树 的 分 类 挖 抉 方法， 减少 属性 值 的 数量 特别 有 好 人 处。 通常 ， 
这 种 方法 是 递归 的 ， 大 量 的 时 间 花 在 每 一 步 的 数据 排序 上 。 因 此 ， 待 排序 的 不 同 值 越 少 ， 这 种 方法 
就 应 当 越 快 。 许 多 离散 化 技术 都 可 以 使 用 ， 以 便 提 供 属 性 值 的 分 层 或 多 维 划 分 概念 分 层 。 概 念 
分 层 在 第 2 章 引 入 ， 对 于 多 个 抽象 层 上 的 挖掘 是 非常 有 用 的 。 

对 于 给 定 的 数值 属性 ， 概 念 分 层 定义 了 该 属性 的 一 个 离散 化 。 通 过 收集 并 用 较 高 层 的 概念 〈 对 
于 年 龄 属性 ， 如 young，middle-age 和 senior) 替换 较 低 层 的 概念 〈 如 ， 年 龄 的 数值 值 ) ， 概 念 分 层 
可 以 用 来 归 约 数据 。 通 过 这 种 泛 化 ， 尽 管 细节 丢失 了 ， 但 泛 化 后 的 数据 更 有 意义 、 更 容易 解释 ， 并 
且 所 需 的 空间 比 原 数 据 少 。 在 归 约 的 数据 上 进行 挖掘 ， 与 在 大 的 、 未 泛 化 的 数据 上 挖掘 相 比 ， 所 需 





























































































































































































































































































































的 IO 操作 更 少 ， 并 且 更 有 效 。 属 性 price 的 概念 分 层 例子 在 图 3.14 给 出 。 对 于 同一 个 属性 可 以 定 











义 多 个 概念 分 层 ， 以 适合 不 同 用 户 的 需要 。 











人 600..$700] | || ‘$800...$900] 





图 3.14 属性 price 的 一 个 概念 分 层 


对 于 用 户 或 领域 专家 ， 人 工地 定义 概念 分 层 可 能 是 一 项 令 人 乏味 、 耗 时 的 任务 。 才 而， 许多 分 
































的 统计 分 析 动 态 地 加 以 提炼 。 


让 我 们 来 看 看 数值 和 分 类 数据 的 概念 分 层 的 产生 。 


3.5.1 数值 数据 的 离散 化 和 概念 分 层 产生 











层 剖 涵 在 数据 库 模 式 中 ， 并 且 可 以 在 模式 定义 级 定义 。 概 念 分 层 常常 自动 地 产生 ， 或 根据 数据 分 布 


























对 于 数值 属性 ， 说 明 概念 分 层 是 困难 的 和 令 人 乏味 的 ， 这 是 由 于 数据 的 可 能 取 值 范围 发 散 和 数 











据 值 的 更 新 频繁 。 这 种 人 工地 说 明 还 可 能 非常 随意 。 






































数值 属性 的 概念 分 层 可 以 根据 数据 分 布 分 析 自 动 地 构造 。 我 们 考察 五 种 数值 概念 分 层 产 生 方法 : 























分 箱 、 直 方 图 分 析 、 聚 类 分 析 、 基 于 箭 的 离散 化 和 通过 “自然 划分 ”的 数据 分 段 。 











分 箱 








3.2.2 小 节 讨 论 了 数据 平滑 的 分 箱 方法 。 这 些 方法 也 是 离散 化 形式 。 例 如 ， 通 过 将 数据 分 布 到 箱 



































直方 图 分 析 
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中 ， 并 用 箱 中 的 平均 值 或 中 值 替 换 箱 中 的 每 个 值 ， 可 以 将 属性 值 离散 化 。 就 象 用 箱 的 平均 值 或 箱 的 
中 值 平滑 一 样 。 这 些 技术 可 以 递归 地 作用 于 结果 划分 





， 产 生 概 念 分 层 。 
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图 3.15 显示 price 属性 

















的 值 分 布 的 直方 图 



































3.4.4 小 节 讨 论 的 直方 图 也 可 以 用 于 离散 化 。 图 3.15 给 出 了 一 个 直方 图 , 显示 某 给 定数 据 集 price 
属性 的 数据 分 布 。 例如 ,频率 最 高 的 价格 大 约 在 $300-$325。 可 以 使 用 划分 规则 定义 值 的 范围 。 例 如， 
在 等 宽 的 直方 图 中 ， 将 值 划分 成 相等 的 部 分 或 区 间 (如 ，($0,$100], ($100,$200],.…, ($900,$1,000])。 
在 等 深 的 直方 图 中 ， 值 被 划分 使 得 每 一 部 分 包括 相同 个 数 的 样本 。 直 方 图 分 析 算 法 递归 地 用 于 每 一 
部 分 ， 自 动 地 产生 多 级 概念 分 层 ， 直 到 到 达 一 个 预先 设 定 的 概念 层 数 ， 过 程 终止 。 也 可 以 对 每 一 层 
使 用 最 小 区 间 长 度 来 控制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 部 分 的 最 小 宽度 ， 或 每 层 每 部 分 中 值 
的 最 少数 目 。 


聚 类 分 析 
聚 类 算法 可 以 用 来 将 数据 划分 成 聚 类 或 群 。 每 一 个 聚 类 形成 概念 分 层 的 一 个 结 点 ， 而 所 有 的 结 
点 在 同一 概念 层 。 每 一 个 聚 类 可 以 进一步 分 成 若干 子 聚 类 ， 形 成 较 低 的 概念 层 。 聚 类 也 可 以 聚集 在 
一 起 ， 以 形成 分 层 结构 中 较 高 的 概念 层 。 数 据 挖掘 的 聚 类 方法 将 在 第 8 章 讨论 。 
基于 灼 离散 化 
一 种 基于 信息 的 度量 称 作 焙 ， 可 以 用 来 递归 地 划分 数值 属性 4 的 值 ， 产 生 分 层 的 离散 化 。 这 种 
离散 化 形成 属性 的 数值 概念 分 层 。 给 定 一 个 数据 元 组 的 集合 9， 基 于 信 对 4 离散 化 的 方法 如 下 : 
1，4 的 每 个 值 可 以 认为 是 一 个 潜在 的 区 间 边 界 或 阔 值 7。 例如 ,4 的 值 v 可 以 将 样本 8 划分 成 分 别 
满足 条 件 4<v 和 4> v 的 两 个 子 集 ， 这 样 就 创建 了 一 个 二 元 离散 化 。 
2.， 给 定 5S， 所 选择 的 阐 值 是 这 样 的 值 ， 它 使 其 后 划分 得 到 的 信息 增益 最 大 。 信 息 增 益 是 
[S| |S, | 
1(S,T)=—— Ent(S,)+ 
13| | 
其 中 ，5Sj 和 5 分 别 对 应 于 5 中 满足 条 件 4 < T 和 A > 了 的 样本 。 对 于 给 定 的 集合 ， 它 的 粹 函数 
Ent 根据 集合 中 样本 的 类 分 布 来 计算 。 例 如 ， 给 定 m 个 类 ，5j 的 和 是 


















































































































































































































































































































































Ent(S,) (3.6) 


























Ent(S1) =-Y p, log;(p,) (3.7) 
j= 














其 中 , p; 是 类 i 在 5) 中 的 概率 ,等 于 5 中 类 i 的 样本 数 除 以 5) 中 的 样本 总 数 。En1(5;) 的 值 可 以 
类 似 地 计算 。 
3. 确定 阔 值 的 过 程 递 归 地 用 于 所 得 到 的 每 个 分 划 ， 直 到 满足 某 个 终止 条 件 ， 如 
Ent(S)—1(S,T)>0 
(3.8) 
基于 坑 的 离散 化 可 以 压缩 数据 量 。 与 迄今 为 止 提 到 的 其 它 方法 不 同 ， 基 于 箭 的 离散 化 使 用 类 信 
息 。 这 使 得 它 更 有 可 能 将 区 间 边 界定 义 在 准确 位 置 ， 有 助 于 提高 分 类 的 准确 性 。 这 里 介绍 的 信息 增 
益 和 和 也 用 于 判定 树 归 纳 。 这 些 度量 的 将 在 5.3.2 和 7.3.1 小 节 更 详细 地 讨论 。 
通过 自然 划分 分 段 
尽管 分 箱 、 直 方 图 、 聚 类 和 基于 入 的 离散 化 对 于 数值 分 层 的 产生 是 有 用 的 ， 但 是 许多 用 户 希 望 
看 到 数值 区 域 被 划分 为 相对 一 致 的 、 易 于 阅读 、 看 上 去 直观 或 “自然 ”的 区 间 。 例 如 ， 更 希望 将 年 
薪 划 分 成 象 ($50,000, $60,000] 的 区 间 , 而 不 是 象 由 某 种 复杂 的 聚 类 技术 得 到 的 ($51263.98, $60872.34] 
那样 。 
3-4-5 规则 可 以 用 于 将 数值 数据 划分 成 相对 一 致 、“ 自 然 的 ”区 间 。 一 般 地 ， 该 规则 根据 最 重 
要 的 数字 上 的 值 区 域 , 递归 地 、 逐 层 地 将 给 定 的 数据 区 域 划 分 为 3、4 或 5 个 等 长 的 区 间 。 该 规则 如 
下 : 
田 ”如 果 一 个 区 间 在 最 重要 的 数字 上 包含 3、6、7 或 9 个 不 同 的 值 , 则 将 该 区 间 划 分 成 3 个 区 间 (对 
于 3、6 和 9， 划 分 成 3 个 等 宽 的 区 间 ;， 而 对 于 7， 按 2-3-2 分 组 ， 划 分 成 3 个 区 间 ) ; 
四 ”如 果 它 在 最 重要 的 数字 上 包含 2、4 或 8 个 不 同 的 值 ， 则 将 区 间 划 分 成 4 个 等 宽 的 区 间 ; 









































































































































































































































































































































































































































四 。 如果 它 在 最 重要 的 数字 上 包含 1、5 或 10 个 不 同 的 值 ， 则 将 区 间 划 分 成 5 个 等 宽 的 区 间 。 


该 规则 可 以 递归 地 用 于 每 个 区 间 ， 为 给 定 的 数值 属性 创建 概念 分 层 。 由 于 在 数据 集中 可 能 有 人 
别 大 的 正 值 和 负 值 ， 最 高 层 分 段 简单 地 按 最 小 和 最 大 值 可 能 导致 扭曲 的 结果 。 例 如 ， 在 资产 数据 外 
中 ， 少 数 人 的 资产 可 能 比 其 他 人 高 几 个 数量 级 。 按 照 最 高 资产 值 分 段 可 能 导致 高 度 倾斜 的 分 层 。 这 
样 , 顶层 分 段 可 以 根据 代表 给 定数 据 大 多 数 的 数据 区 间 (例如 , 第 5 个 百 分 位 数 到 第 95 个 百 分 位 数 ) 
进行 。 越 出 顶层 分 段 的 特别 高 和 特别 低 的 值 将 用 类 似 的 方法 形成 单独 的 区 间 。 


下 面 是 一 个 自动 构造 数值 分 层 的 例子 ， 解 释 3-4-5 规则 的 使 用 。 


例 3.5 假定 AllElectronics 所 有 分 部 1999 年 的 利润 覆盖 了 一 个 很 宽 的 区 间 ， 由 -$351,976.00 到 
$4,700,896.50。 用 户 希 望 自 动 地 产生 利润 的 概念 分 层 。 为 了 改进 可 读 性 ， 我 们 使 用 记号 (4L. 吕 表示 区 
间 Q,d]。 例 如 ，(-$1,000,000...$0] 表 示 由 -$1,000,000〔 开 的 ) 到 $0〔 闭 的 ) 的 区 间 。 


假定 数据 的 5%- 片 到 90%- 片 在 -$159,876 和 $1,838,761 之 间 。 使 用 3-4-5 规则 的 结果 如 图 3.16 所 
不 。 


1. 根据 以 上 信息 ， 最 小 和 最 大 值 分 别 为 MIN = -$351,976.00 和 MAX = $4,700,896.50。 对 于 分 段 的 
顶层 或 第 一 层 ， 要 考虑 的 最 低 (第 5 个 百 分 位 数 ) 和 最 高 〈 第 95 个 百 分 位 数 ) 值 是 : LOW = 
-$159,876, HIGH = $1,838,761。 


2. 给 定 LOW 和 HIGH， 最 重要 的 数字 在 一 百 万 美元 数字 位 〈《 即 ，msd=1,000,000〉。LOW 问 下 对 
一 百 万 美元 数字 位 取 整 ， 得 到 LOW*= -$1,000,000; HIGH 向 上 对 一 百 万 美元 数字 位 取 整 ， 得 到 
HIGH’ = +$2,000,000。 
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于 该 区 间 在 最 








3-4-5 规则 ， 该 
($1,000,000... 














更 小 一 点 。 
-$400,000。 


由 于 最 








$2,000,000]。 


区 间 被 划分 成 三 
0 


4.， 现 在， 我 们 考察 MIN 和 MAX， 看 它们 “ 
(-$1,000,000...$0] 履 盖 了 MIN 值 














区 间 : 

















适合 ”在 第 一 层 
( 即 ，LOW' < MIN) ， 我 们 可 以 调整 





MIN 的 最 重要 数字 在 十 万 数字 位 。MIN 向 下 对 十 万 数字 位 取 获 
新 定义 为 (-$400,000...$0]。 





因此 ， 





第 一 个 区 间 被 习 














建 一 个 新 的 区 间 来 覆盖 


$5,000,000]。 








。 对 MAX 向 


上 对 最 














因此 ， 分 层 结构 的 最 顶层 包含 4 个 区 间 


($1,000,000...$2,000,000] 和 ($2,000,000...$5,000,000]。 


5. 递归 地 ， 





流 


J 


二 个 区 


3 
et > 


Bed 








每 一 个 区 间 可 以 根据 3-4-5 规则 进 一 


步 划分 





图 3.16 根据 3-4-5 规则 ，profit 概念 分 层 的 自动 产生 


EE 要 的 数字 上 跨越 了 三 即 ，(2,000,000 - (1000,000)) /1,000,000 = 3， 根 据 


(-$1,000,000...$0]，($0...$1,000,000] 和 








分 划 的 什么 地 方 。 











于 第 一 个 区 间 


























该 区 间 的 左边 界 ， 使 区 间 


得 到 MIV' = 


eg .$2,000,000] 不 包含 MAX 值 ， 即 MAX > HIGH， 我 们 需要 创 
重要 数字 位 取 整 ， 新 的 区 间 为 ($2,000,000 .. 
(-$400,000...$0] ， ($0...$1,000 .0001， 


， 形 成 分 层 结构 的 下 一 个 较 低 层 : 


第 一 个 区 间 (-$400,000...$0] 划 分 成 4 个 子 区 间 :(-$400,000...-$300,000],(-$300,000..-$200,000]， 
$200, 000...-$100,000] 和 (-$100,000...$0]。 


区 间 ($0...$1,000,000] 划 分 成 5 个 子 区 间 : 
400,000...$600,000], ($600,000...$800,000] 和 ($800,000...$1,000,000]。 


个 区 间 ($1,000,000...$2,000,000] 划 分 成 5 个 子 区 间 : 


($0...$200,000]，($200,000...$400,000], 


($1,000,000...$1,200,000], 


全 5 .200， 000...$1,400,000]，($1,400,000...$1,600,000]，($1,600,000...$1,800,000] 和 ($1,800,000... 
$2,000,000]。 


。 最 后 一 








个 区 间 ($2,000,000...$5,000,000] 划 分 成 3 个 子 区 间 : 


($3,000,000...$4,000,000] 和 ($4,000,000...$5,000,000]。 


类 似 地 ， 如 果 必 要 的 话 ，3-4-5 规则 可 以 在 较 低 的 层 
3.5.2 分 类 数据 的 概念 分 层 产生 


分 类 数据 是 离散 数据 。 
地 理 位 置 、 工 作 分 类 和 商品 类 型 。 



































由 用 户 或 专家 在 模式 级 显 式 地 说 明 属性 的 部 分 序 ， 通常 ， 


性 。 用 户 或 专家 在 模式 级 通过 
数据 库 或 数据 仓库 的 维 























寺 说 明 属 


分 类 属性 


上 继续 迭代 。 口 


($2,000,000...$3,000,000], 














一 个 分 类 属性 具有 有 限 个 (但 可 能 很 多 ) 不 同 值 ， 值 


有 一 些 典型 的 方法 产生 分 类 数据 的 概念 


分 层 。 





























FE: street, city, province_or_state 和 country。 5 


之 间 无 序 。 例 子 有 


生 或 维 的 概念 分 层 涉及 一 组 属 
性 的 部 分 序 或 全 序 ， 可 以 很 容易 地 定义 概念 分 层 
location 可 能 包含 如 下 一 组 属 履 




















。 例 如 ， 关 系 








以 在 模式 级 说 明 一 个 全 序 ， 如 street <city <province_or_state <country， 来 定义 分 层 结构 。 


通过 显 式 数据 分 组 说 明 分 层 结构 的 一 部 分 : 这 基本 上 是 人 工地 定义 概念 
一 个 大 型 数据 库 中 ， 通 过 显 式 的 值 枚 举 定义 整 


数据 ， 显 式 指出 分 双 


























想 人 工地 添加 茶 些 























内 个 概念 











“ {British Columbia, prairies_Canada} C Western_Canada” 


说 明 属 性 集 ， 但 不 说 明 它们 的 偏 序 : 
明 它们 的 偏 序 。 然 后 ， 系 统 试图 














你 可 能 会 问 : 


的 事实 : 由 于 一 














属性 



































性 的 不 同 值 个 数 越 少 ， 
则 都 很 顶 用 。 在 考察 了 所 产生 的 分 














动 地 产生 








个 较 高 层 的 概念 





它 在 所 产生 的 概念 





用 户 可 以 说 明 一 个 属 怕 


“没有 数据 语义 的 知识 ， 如 何 找 出 一 个 任意 的 分 类 属性 
通常 包含 若干 从 属 的 较 低 层 概 念 








E 集 ， 形 成 概念 分 
属性 的 序 ， 构 造 有 意义 的 概念 分 层 。 





分 层 结构 的 一 部 分 。 在 
分 层 是 不 现实 的 。 然 而 ， 对 于 一 小 部 分 
是 现实 的 。 例 如 ， 在 模式 级 说 明了 province 和 country 形成 一 
间 层 。 如 显 式 地 定义 “{Albert, Sakatchewan, Manitoba} C prairies_Canada” 和 和 


个 分 层 后 ， 可 能 





屋 ， 但 并 不 显 式 说 











间 层 























集 的 分 层 序 ? ”考虑 下 面 








`， 定义 在 高 概念 层 的 属 








较 低 概念 层 的 属性 相 比 ， 通 常 包含 较 少数 目的 不 同 值 。 根 据 这 一 











不 同 值 的 个 数 ， 自 动 地 产生 概念 分 层 。 具 有 


性 与 定义 在 

















事实 ， 可 以 














最 多 不 同 值 的 属 
分 层 结 构 中 所 处 的 层 越 高 。 


民 据 给 定 属性 集 

















每 个 











性 放 在 分 层 











结构 的 最 低层 。 
在 许多 情况 下 ， 这 种 启发 式 规 





层 之 后 ， 如 果 必 要 ， 局 部 层次 交换 或 调整 可 以 


























个 属 








] 户 或 专家 来 做 。 


让 我 们 看 一 个 例子 。 


例 3.6 假定 用 户 对 于 AllElectronics 的 维 location 选 定 了 属性 集 : street, country, province_or_state 
和 city， 但 没有 指出 属性 之 间 的 层次 序 。 

location 的 概念 分 层 可 以 按 如 下 步 动 地 产生 。 首 先 ， 根 据 每 个 属性 的 不 同 值 个 数 ， 将 属性 
按 降 序 排列 。 其 结果 如 下 “每 个 属性 同 值 数目 在 括号 中 ) : country(15), province_or_state(365)， 
city(3567)，street(674,339)。 其 次 ， 按 照排 好 的 次 序 ， 自 顶 向 下 产生 分 层 ， 第 一 个 属性 在 最 顶层 ， 最 
后 一 个 属性 在 最 底层 。 结 果 分 层 如 图 3.17 所 示 。 最 后 , 用 户 可 以 考察 所 产生 的 分 层 , 如 果 必 要 的 话 ， 
修改 它 ， 以 反映 期 望 属性 应 满足 的 联系 。 在 这 个 例子 中 ， 显 然 不 需要 修改 产生 的 分 层 。 口 

































































































































































15 个 不 同 值 






brovince or state 


365 个 不 同 值 


3567 个 不 同 秆 


674 339 个 不 同 值 


图 3.17 一 个 基于 不 同 值 个 数 的 模式 概念 分 层 的 自动 产生 


注意 ， 不 能 把 启发 式 规则 推 向 极端 ， 因 为 显然 有 些 情况 并 不 遵循 该 规划。 例如， 在 一 个 数据 库 
， 时 间 维 可 能 包含 20 个 不 同 的 年 ，12 个 不 同 的 月 ， 每 星期 7 个 不 同 的 天 。 然 而 ， 这 并 不 意味 时 
间 分 层 应 当 是 “year < month < days_of the_week”， days_of the_week 在 分 层 结构 的 最 顶层 。 


只 说 明 部 分 属性 集 : 在 定义 分 层 时 ， 有 时 用 户 可 能 不 小 心 ， 或 者 对 于 分 层 结构 中 应 当 包 含 什 么 
只 有 很 模糊 的 想法 。 结 果 ， 用 户 可 能 在 分 层 结构 说 明 中 只 包含 了 相关 属性 的 一 小 部 分 。 例 如 ， 用 户 
可 能 没有 包含 location 所 有 分 层 的 相关 属性 ， 而 只 说 明了 street 和 city。 为 了 处 理 这 种 部 分 说 明 的 分 
层 结构 ， 重 要 的 是 在 数据 库 模 式 中 峙 入 数据 语义 ， 使 得 语义 密切 相关 的 属性 和 ee 这 种 
办 法 ， 一 个 属性 的 说 明 可 能 触发 整个 语义 密切 相关 的 属性 被 “ 拖 进 ”， 形 成 一 个 完整 的 分 层 结构 。 
然而 ， 必 要 时 ， 用 户 应 当 可 以 忽略 这 一 特性 。 


例 3.7 关于 location 概念 ， 假 定数 据 库 系统 已 将 五 个 属性 number, street, city, province_or_state 
和 country 捆绑 在 一 起 。 如 果 用 户 在 定义 location 的 分 层 结构 时 只 说 明了 属性 city， 系 统 可 以 自动 地 
拖 进 以 上 五 个 语义 相关 的 属性 , 形成 一 个 分 层 结构 。 用 户 可 以 去 抒 分 层 结构 中 的 任何 属性 , 如 number 
和 street， 让 cip 作为 该 分 层 结构 的 最 低 概念 层 。 口 




























































































































































































































































































3.6 总 结 








昌 ”数据 预 处 理 对 于 建立 数据 仓库 和 数据 挖掘 都 是 一 个 重要 的 问题 ， 因 为 现实 世界 中 的 数据 多 半 是 
不 完整 的 有 噪音 的 和 不 一 致 的 。 数 据 预 处 理 包 括 数据 清理 、 数 据 集成 、 数 据 变换 和 数据 归 约 。 


@@ ”数据 清理 例 程 可 以 用 于 填充 遗漏 的 值 ， 平 滑 数据 ， 找 出 局 外 者 并 纠正 数据 的 不 一 致 性 。 


昌 数据 集成 将 来 自 不 同 数据 源 的 数据 整合 成 一 致 的 数据 存储 。 元 数据 、 相 关 分 析 、 数 据 冲 突 检 测 
和 语义 异种 性 的 解决 都 有 助 于 数据 集成 。 











































































































数据 变换 例 程 将 数据 变换 成 适 于 挖 和 


小 区 间 ， 如 





0.0 到 1.0。 











轩 的 形式 。 例 如 ， 属 性 数据 可 以 规范 化 ， 使 得 它们 可 以 落 入 





数据 归 约 技术 ， 如 数据 方 聚 集 、 维 归 约 、 数 据 压缩 、 数 值 归 约 和 离散 化 都 可 以 用 来 得 到 数据 的 





归 约 表示 ， 而 使 得 信息 内 容 的 损失 最 小 。 






































数值 数据 的 概念 分 层 自 动产 生 可 能 涉及 诸如 分 箱 、 直 方 图 分 析 、 聚 类 分 析 、 基 于 入 的 离散 化 和 

















民 据 自然 划分 分 段 。 对 于 分 类 数据 ， 
































旺 


概念 分 层 可 以 根据 定义 分 层 的 属性 的 不 同 值 个 数 自 动产 生 。 















































尽管 已 经 提出 了 一 些 数据 预 处 理 的 方法 ， 数 据 预 处 理 仍然 是 一 个 实际 研究 领域 。 


习题 


3.1 
3.2 


数据 的 质量 
在 现实 世界 






































可 以 用 精确 性 、 完 整 性 和 一 致 性 来 评 佑 。 提 出 两 种 数据 质量 的 其 它 尺 度 。 











的 数据 中 ， 元 组 在 某 些 属 性 上 缺少 值 是 常 有 的 。 描 述 处 理 该 问题 的 各 种 方法 。 





3.3 ”假定 用 于 分 析 的 数据 包含 属性 age。 
20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 


(a) 使 用 按 箱 平均 值 平滑 对 以 上 数据 


3.4 
3.5 


3.6 


3 


3.8 











数据 ， 该 技术 的 效果 。 














(b) 你 怎样 确定 数据 中 的 局 外 者 ? 

































































数据 元 组 中 age 的 值 如 下 〈 按 递增 序 ) : 13, 15, 16, 16, 19， 

















进行 平滑 ， 箱 的 深度 为 3。 解 释 你 的 步 又 。 评 论 对 于 给 定 的 





(c) 对 于 数据 平滑 ， 还 有 哪些 其 它 方法 ? 





讨论 数据 集 











成 需要 考虑 的 问题 。 


使 用 习题 3.3 给 出 的 age 数据 ， 回 答 以 下 问题 : 
(a) ”使 用 min-max 规范 化 ， 将 age 值 35 转换 到 [0.0,1.0] 区 间 。 




















(b) ”使 用 z-score 规范 化 转换 age 值 55， 其 中 ，age 的 标准 偏差 为 12.94 年 。 


















































(c) ”使 用 小 数 定 标 规范 化 转换 age 值 35。 
(d) 指出 对 于 给 定 的 数据 ， 你 愿意 使 用 哪 种 方法 。 陈 述 你 的 理由 。 


使 用 流程 贿 











(a) 逐步 向 前 选择 
(b) 逐步 向 后 删除 











(c) 逐步 向 前 
































解释 如 下 属性 子 集 选择 过 程 





























选择 和 逐步 向 后 删除 的 结合 
使 用 习题 3.3 给 出 的 age 数据 


(a) 画 一 个 宽度 为 10 的 等 宽 的 直方 图 。 


(b) 为 如 下 每 种 选 样 技术 勾画 例子 : 
的 样本 和 层 “young”, “middle_aged”* 和 “senior”。 


对 如 下 问题 ， 使 用 伪 代 码 或 你 喜欢 用 的 程序 设计 语言 ， 给 出 算法 : 


(a) 对 于 分 类 数据 ， 基 于 给 定 模式 ! 











SRSWOR，SRSWR， 肾 类 选 样 ， 分 层 选 样 。 使 用 长 度 为 5 




















属性 的 不 同 值 的 个 数 ， 自 动产 生 概 念 分 层 。 








(b) 对 于 数值 数据 ， 基 于 等 宽 划 分 规则 ， 自 动产 生 概 念 分 层 。 
(c) 对 于 数值 数据 ， 基 于 等 深 划 分 规则 ， 自 动产 生 概念 分 层 。 


























文献 注释 














数据 预 处 理 在 许多 教科 书 
Indurkhya[ W198], 



























































中 都 有 讨论 ， 包 括 Kennedy, Lee，Van Roy 等 区 LV+98]，Weiss 和 
以 及 Pyle[Py199]。 预 处 理 技 术 的 更 专门 的 文献 在 下 面 给 


D 
Lo 


关于 数据 质量 的 讨论 见 Redman[Red92], Wang, Storey 和 Firth[WSF95], Wand 和 Wang [WW96]， 
以 及 Ballou 和 Tayi[BT99]。 缺 少 属性 值 的 处 理 在 Friedman[Fri77]，Beriman，Friedman，Olshen 和 
Stone[BFOS84] 和 Quinlan[Qui89] 中 ,在 手写 字符 数据 库 中 检测 局 乡 
Matic 和 Vapnik 给 出 [GMV96]。 分 箱 和 数据 规范 化 在 一 些 教材 


Py199]。 包 括 属 性 

















数据 归 约 的 


[SS94, AAD+96, HRU96, RS97, ZDN97] 。 





























变换 在 Daubechies [Dau92] 












































构造 的 系统 有 Langley, Simon, Bradshaw 和 Zytko 
























































者 或 “垃圾 ”模式 的 方法 由 Guyon， 
PF 都 有 处 理 ， 
w 的 BACON[LSBZ87], Schlimmer 
的 Stagger[Schl87]，Pagallo 的 FRINGE[Pag89]， 以 及 Bloedorn 和 Michalski 的 AQ17-DCI[BM98]。 
属性 构造 也 在 Liu 和 Motoda[LM98a，LM98b] 中 介绍 。 











包括 [KLV+98，WI98&， 





个 很 好 的 综述 可 以 在 Barbar 等 [BDF+97] 中 找到 。 数 据 方 和 它 的 预计 算 算法 见 

























































































属性 子 集 选择 〈 或 特征 子 集 选择 ) 在 一 些 教材 中 都 有 介绍 ， 
如 Neter，Kutner，Nachtsheim 和 Wasserman[NKNW96] ，Dash 和 Liu[DL97]， 以 及 Liu > 
Motoda[LM98a,LM98b]。 结 合 向 前 选择 和 问 后 删除 的 方法 由 Siedlecki 和 Skansky 提出 [SS88]。 

属性 选择 的 包装 方法 在 Kohavi 和 John 中 [KJ97]。 非 主导 属性 子 集 选 择 在 Dash，Liu 和 Ys 
中 介绍 。 关 于 数据 压缩 的 小 波 介绍 见 Press, Teukolosky, Vetterling 和 Flannery[PTVF96]。 小 波 的 一 般 
说 明 可 以 在 Hubbard[Hub96] 中 找到 。 小 波 软 件 包 的 列表 见 Bruce, Donoho 和 Gao[BDG96]。Daubechies 
介绍 。Press 等 的 书 [PTVF96] 中 也 包含 了 关于 主要 成 分 分 析 的 单 值 分 解 





























的 介绍 。PCA 的 例 程 包含 在 大 部 分 统计 软件 包 中 ， 如 SASGhtip:fwww.sas.com/SASHome.html)。 
对 回归 和 对 数 线性 模型 的 介绍 在 若干 教科 书 中 可 以 找到 ， 


NKNW96]。 对 数 线性 模型 〈 在 计算 机 科学 界 也 称 乘法 模型 
Barbaré 等 [BDF+97] 和 Devore 和 Peck[DP97]。 单 属 
和 ee Poosala 和 Ioannidis[PI97]。 关 于 聚 类 算法 的 引文 在 本 





























如 [Jam85，Dob90，JW92，Dev95， 





) 见 Pearl[Pea88]。 


直方 图 的 一 般 介绍 见 


























六 




















这 一 课题 。 多 维 索引 结构 的 综述 在 Caede 和 Giinther[GG98]' 























性 直方 图 到 多 | 


























。 对 


届 性 直方 图 
的 第 8 章 给 出 ， 该 章 讨 论 





数据 聚 


的 扩充 见 Muralikrishna 








集 使 用 多 维 索引 树 在 








Aoki[Aok98] 中 讨论 。 索 引 树 包括 R- 树 (Guttman[Gut84]) ， 四 又 树 (Finkel 和 bentley[FB74]) 和 它 


们 的 变种 。 选 样 和 数据 挖 扩 
Kerber 的 ChiMerge[Ker92]，Liu 和 Setiono 的 Chi2[LS95] 是 数值 属 
用 了 x ? 统计。Fayyad 和 Irani[FI93] 使 用 最 小 描述 长 度 原则 确定 数值 离散 化 的 区 间 数 。 在 











轴 的 讨论 见 Kivnen 和 Mannila[KM94] ，John 生 





Langley[JL96]。 























性 的 














动 离散 化 ， 二 者 都 使 














Catlett[Cat91]，D-2 系统 递归 地 二 分 数值 特征 。 具 有 算法 C4.5 基于 炉 的 离散 化 在 Quinlan[Qui93] 中 








介绍 。 概 念 分 层 和 1 














分 类 数据 自动 地 产生 它们 在 Han 和 Fu[HF94] 中 描述 。 


第 四 章 “” 数据 挖掘 原 语 、 





























关于 数据 挖掘， 一 个 流行 的 错误 观点 是 : 
型 数据 库 中 的 所 有 有 价值 的 知识 
是 吸引 和 人 的， 但 在 实践 中 ， 它 将 不 可 能 涵盖 大 部 分 模式 集 。 
定 的 数据 库 。 让 数据 挖掘 系统 
什么 样 的 模式 用 户 感 兴趣 ， 就 是 放纵 数据 挖掘 “怪物 ”。 
关 。 此 外 ， 尽 管 有 些 模式 与 分 析 任 务 有 关 ， 但 是 它们 可 能 太 难 理 
性 殉 得 它们 不 令 人 感 兴趣 。 这 样 ， 产 生 、 存 放 或 提供 由 给 
















































































现实 ， 又 不 是 所 期 望 的 。 















































语言 和 系统 结构 





所 产生 的 全 部 模式 

















Se A na 
只 ， 而 不 需要 人 的 干预 或 指导 。 尺 管 有 一 个 自动 数据 挖 抉 系统 看 上 去 

















的 大 小 很 容易 超过 给 


“放纵 ”地 去 发 现 模式 ， 而 不 提供 用 户 希 望 探 查 数据 库 的 哪些 部 分 ， 











所 发 现 的 大 部 分 模式 








与 用 户 的 分 析 任 务 无 




















解 ， 或 缺乏 有 























定 的 数据 库 可 































































































一 个 更 现实 的 做 法 是 : 希望 用 户 能 够 通过 使 
有 效 的 和 有 成 果 的 知识 发 现 。 这 组 原 语 包括 说 明 数 据 库 的 部 分 或 用 户 感 兴趣 的 
的 数据 库 属性 或 数据 仓库 维 ) ， 要 挖掘 的 知识 类 型 ， 用 于 指导 挖掘 过 程 的 背景 
度量 和 如 何 显示 所 发 现 的 知识 。 这 些 原 语 允 许 用 户 在 知识 发 现时 与 数据 挖掘 系 
度 和 深度 审查 发 现 结 果 ， 并 指导 挖掘 过 程 。 

可 以 设计 数据 挖掘 查询 语言 集成 这 些 原 语 ， 允 许 用 户 自 由 地 与 数据 挖掘 系 


询 语 言 也 为 建立 友好 的 图 形 用 户 界面 提供 了 基础 。 
系统 结构 是 非常 重要 的 。 这 将 有 助 于 数据 挖掘 系统 与 其 它 信 ， 








环境 的 集成 。 





本 章 ， 你 将 详细 学 习 数 据 挖掘 原 语 ， 研 究 

































































此 外 ， 为 了 实现 数据 挖掘 系 





























学 习 数 据 挖 气 系 统 的 系统 结构 。 


4.1 


每 个 用 户 脑袋 
可 以 用 数据 挖掘 查询 的 形式 说 明 ， 





4. 1 所 示 。 


@ ”任务 相关 的 数据 : 这 是 要 考察 的 数据 库 部 分 。 
特殊 地 ， 你 想 研 究 加 拿 大 顾客 的 购买 趋势 。 你 可 





美国 和 加 拿 大 的 销售 。 
客 的 购买 数据 ， 





数据 挖掘 原 语 : 




















都 有 一 个 数据 挖掘 任务 ， 即 ， 他 想 要 





我 想 挖掘 什么 知识 ? 


图 4.1 

















以 及 相关 顾客 的 简要 信息 ， 


系统 的 输入 。 数 据 挖掘 查询 用 


它 是 数据 挖掘 


性 务 相关 的 数据 : 我 想 挖掘 什么 数据 集 ? 






什么 背景 知识 在 这 里 可 能 有 用 ? 
哪些 度量 可 以 用 来 评估 模式 的 兴趣 度 ? 
我 希望 如 何 提供 发 现 的 模式 ? 











县 系统 通讯 ， 有 利 














根据 这 些 原 则 设计 数据 挖掘 查询 





什么 定义 数据 挖掘 任务 ? 
















定义 数据 挖掘 任务 或 查询 





例如 ， 假 定 你 是 AllElectronics 的 经 于 








而 不 是 挖掘 整个 数据 库 。 








进行 的 数据 分 析 形 式 。 


你 还 可 以 说 明 控 所 


效 性 、 新 颖 性 或 实用 








能 发 现 的 所 有 模式 既 不 

















j 一 组 数据 挖掘 原 语 与 数据 挖掘 系统 通讯 ， 以 文 持 











数据 集 (包括 感 兴趣 
知识 ， 模 式 评估 兴趣 
统 通讯 ， 从 不 同 的 角 





























统 交 互 。 数 据 挖掘 查 
统 ， 一 个 精心 设计 的 
于 它 与 整个 信息 处 理 








语言 5 


此 外 ， 你 还 将 


一 个 数据 挖掘 任务 
以 下 原 语 定义 ， 如 网 


， 负 责 
能 说 明 只 提取 加 拿 大 顾 
过 程 中 














需要 考虑 的 感 兴趣 的 属性 。 这 些 


要 挖 抉 什么 类 型 的 知识 ， 这 是 说 明 要 执行 的 数据 挖 扩 
或 演变 分 析 。 例 如 ， 如 果 丰 
联 规则 。 


户 可 以 说 明 背 景 知 





品 之 间 的 关 
背景 知识 : 


现 的 模式 ， 这 些 知 识 是 非常 有 
称 作 概念 分 层 的 流行 的 背景 知识 
它 例子 包括 用 户 对 
是 感 兴趣 的 ) 或 预期 程度 〈 这 里 ， 验 证 了 某 种 用 户 假 定 的 模式 是 有 趣 的 ) 评估 发 现 





兴趣 度 度 量 : 这 些 功 能 月 





在 挖 据 之 后 















































二 
是 
时 











二 


age 可 能 被 说 明 为 挖掘 任务 相关 的 属 





性 称 为 相关 属性 ”。 例 如 ， 如 果 你 只 关心 顾客 购买 的 商品 与 
其 年 收入 和 年 龄 之 间 的 可 能 联系 ， 则 关系 itenm 的 属性 name， 关 系 customer 的 属性 income 和 











性 。 




















究 加 拿 大 顾客 的 购买 习惯 ， 








识 


Ss 


的 








， 或 关于 


有 多 种 类 型 的 背 


























图 4.2 














公 
仿 分 


9 概念 

















My 
， TI 











几 三 负 
丘 


轩 函 数 ， 如 特征 、 
尔 可 能 选择 挖 抉 顾客 和 





























任务 相关 数据 


数据 库 或 数据 仓库 名 
数据 库 表 或 数据 仓库 的 数据 方 


数据 
相关 属性 或 维 
数据 分 姐 条 件 


控 据 的 知识 类 型 


层 
用 尸 对 数据 联系 的 确信 


模式 兴趣 度 度 量 


简洁 性 
可 信 性 ( 如， 
实用 性 ( 如， 
新 颖 性 


置信 和 度 ) 
支持 度 ) 


发 现 积 式 的 可 视 化 


规则 、 表 、 报 堂 、 图 表 、 图 
判定 树 和 数据 方 
下 锁 或 上 郑 


于 将 不 感 兴趣 的 模式 从 知识 9 


说 明 数 据 挖掘 任务 的 原 语 








分 开 ， 





区 别 、 关 联 、 





它们 可 以 





FE 估 发现 的 模式 。 不 同类 型 的 知识 需要 不 同 的 兴趣 度 度 量 。 

















”如 果 挖 气 在 多 维 数据 方 上 i 











用 户 可 以 指定 相关 维 。 





分 类 、 


也 们 喜爱 买 的 商 


二 
聚 类 


挖掘 领域 的 知识 。 对 于 指导 知识 发 现 过 程 和 评估 发 
知识 。 本 章 ， 我 们 将 注意 力 集中 在 一 种 
屋 是 有 用 的 ， 它 允许 在 多 个 抽象 


数据 联系 的 确信 。 这 些 根据 模式 的 非 预 期 程度 (这 里 ， 非 预期 的 模式 被 认为 











且 


云 





挖掘 数据 。 其 











的 模式 。 











] 于 指导 挖 据 过 程 ， 





或 








网 如 ， 对 于 关联 规则 ， 


兴趣 度 度量 包括 支持 度 (1 








时 现 规则 模式 的 人 有 




















强度 估计 ) 。 其 支持 





图 、 











如 规则 、 表 、 





下 面 ， 我 们 仔细 考察 这 些 原 语 。 


4.1.1 任务 相关 的 数据 


第 一 个 原 语 是 说 明 竺 挖掘 的 数据 。 
的 ， 特别 是 1 
所 发 现 的 许多 模式 与 
任务 相关 的 数据 集 可 以 通过 涉及 如 选择 、 





掘 整个 数据 库 是 不 3 
程 效 率 很 低 。 此 外 ， 
在 关系 数据 库 ! 
询 来 收集 。 


现实 和 

















条 








数据 关系 ， 称 作 初 始 数据 关系 。 
i 之前， 数据 可 能 被 








挖 抉 分 书 


度 和 置 








信和 度 小 于 用 户 指定 的 阔 值 

















E 务 相关 元 组 所 占 的 百分比 》 和 置信 和 度 〈 规 
的 规则 被 认为 是 不 感 兴趣 的 。 


























这 种 数据 提取 可 以 认为 是 数据 挖 
初始 
青 理 或 转换 ( 




















以 不 对 应 于 数据 库 ! 





的 物理 





关系 。 














用 户 的 兴趣 无 关 。 














轴 任 务 的 一 个 “ 
数据 关系 可 以 根据 查询 
网 如 ， 在 某 些 属 


值 未 三 咯 性 上 





























相关 的 数据 集 称 作 可 挖掘 


例 4.1 如 果 数 据 控 
联 ， 则 任务 相关 的 数据 可 以 由 以 下 信 
所 用 的 数据 库 或 数据 仓库 的 名 字 (如 ，A771Blectronics_qb) ， 
或 数据 方 的 名 字 (如 ，jtem, customer, purchass 和 item so7a) ， 
选择 相关 数据 的 条 件 〈 如 ， 提 取 关 于 当年 在 加 拿 大 进行 购买 的 数据 ) ， 

上 ， 来 自 item 表 的 name 和 price， 来 
能 说 明 提 取 的 数据 按 某 些 属性 分 组 ， 如 “group by date”。 
E 务 相关 的 数据 。 


通常 存放 在 称 为 数据 方 的 多 维 
关系 结构 或 二 者 的 结合 来 实现 , 我 们 在 
的 属性 值 提取 数据 〉 或 切 块 (提取 
时 查 询 中 ， 数据 选择 条 件 可 以 在 比 数据 库 或 数据 仓库 中 的 数据 更 高 的 概念 层 上 。 
“pome entertarpnment 在 All1Electronics 的 商品 上 指 








包含 相关 数据 的 表 








相关 的 


此 外 ， 用 户 可 
用 一 个 SQL 查询 提取 外 


在 数据 仓库 中 ， 数 据 


属性 或 维 (如 





























数据 方 的 切片 (对 于 给 定 
注意 , 在 数据 挖 
例如 ， 用 户 可 以 使 用 概念 



































的 视图 。 






































type 











管 数据 库 中 的 商品 可 
存放 。 在 商品 上 的 概念 分 
秆 放 记 2 ， wa } 组 成 ， 




















< 











二 














趣 的 ， 用 户 可 和 能 只 个 
语义 联系 的 数据 。 例 如 ， 








时 任 务 是 大 








究 有 
息 指 定 : 











加 | 











第 2 章 已 讨论 。 任务 











能 不 是 按 类 型 有 





对 于 用 户 ， 说 明 相 关 属 性 


屋 将 “home 


可 





目 关 的 数据 。 

















是 一 个 


困难 的 全 








能 是 





粗 


甘 - 
不 











些 商品 





在 说 明 待 挖 














切 相 关 ， 但 这 些 因 素 可 能 




















出 任务 相关 数据 的 更 精确 说 明 。 贞 








初始 数据 集 。 











没有 








4.1.2 ”要 挖掘 的 知识 的 类 型 


说 明 挖掘 什么 类 型 的 知识 是 














述 〈 特 征 和 区 别 ) 、 








小 


关联 、 


包含 在 


ih 


般 的 数据 分 析 请 求 ! 
外， 搜索 具有 强 



































分 类 、 预 测 、 聚 类 和 演变 分 


通常 ， 用 户 感 兴趣 的 只 
于 所 产生 的 模式 可 能 随 数据 库 的 大 小 指数 地 增长 ， 使 得 挖掘 过 


F 放 ， 而 是 按 较 低层 的 概念 ， 
entertainment” 说 明 为 较 高 层 概念 
以 用 于 收集 任务 可 
:或 维 可 外 
各 的 想法 。 此 外 ， 


E 务 。 对 于 可 外 
必 的 数据 时 ， 用 户 可 能 会 忽略 与 之 有 4 
的 销售 可 能 与 诸如 圣诞 节 或 鬼 节 ， 或 特定 的 人 和 群 等 特定 的 事 们 





42 中 。 





则 的 到 闻 





发 现 模式 的 提供 和 可 视 化 : 这 涉及 发 现 模式 的 显示 形式 。 用 户 可 以 选择 不 同 的 知识 表现 形式 ， 
判定 树 和 数据 方 。 


这 些 原 语 的 说 明 总 结 在 图 








是 数据 库 的 一 





数 
下 指定 的 条 作 
聚集 ) 。 初 





由 于 虚拟 关系 在 数据 库 领域 称 为 视图 ， 这 种 用 于 数据 挖 扩 




















数据 库 中 。 数 据 方 可 以 使 








个 子 集 。 不 加 区 分 地 挖 








连接 和 聚集 等 操作 的 关系 查 
据 收集 过 程 产生 一 个 新 的 
排序 或 分 组 。 在 用 于 数据 
始 关系 可 以 对 应 于 ， 也 可 
由 的 任务 




















E AllElectronics 经 常 购买 的 商品 和 加 拿 大 顾客 之 间 的 关 





customer 表 的 income 和 age) 。 





给 出 这 些 信息 县 ， 可 以 























j 多 维 数组 结构 、 

















若干 片 的 交 ) 








昌 关 的 数据 集 可 以 通过 基于 条 件 的 


如 “TV” 、 
， 由 较 低 














过 小 ， 





来 指定 。 




















定 选 择 ， 尽 
放 机 ” 马 或 “VCR” 
既 念 { Ca YE l “CD 


[74 CD 播 
层 























EE 进行 








。 对 于 这 种 情 





因为 这 决定 使 用 什么 数据 挖 气功 有 


析 。 


的 探查 ， 什 么 属性 是 感 兴 
民 强 


F 密 


给 























况 ， 有 些 机 制 可 以 帮 肋 











语义 联系 属性 的 技术 也 可 以 用 来 加 强 用 户 说 明 的 











型 包括 概 





EE。 知 识 类 





























对 于 给 定 的 数据 挖掘 任务 ， 除 说 明 要 挖掘 的 知识 类 型 外 ， 用 户 可 能 想 进 一 步 说 明和 提供 所 有 发 
现 模 式 必 须 匹 配 的 模式 模板 。 这 些 模板 ， 或 元 模式 〈 又 称 元 规则 或 元 查询 ) 可 以 用 于 指导 发 现 过 程 。 
这 些 元 模式 的 使 用 在 以 下 例子 中 解释 。 
例 4.2 一 个 研究 AllElectronics 的 顾客 购买 习惯 的 用 户 可 能 选择 挖掘 如 下 形式 的 关联 规则 
P(X :customer,W) 和 人 Q(X,Y) SS buys(X,Z) 
ji 了 是 关系 customer 的 关键 字 ; P 和 0 是 谓词 变量 ， 它 们 可 以 被 例 示 为 作为 任务 相关 数据 的 一 
分 说 明 的 相关 属性 或 维 ， 而 思 了 和 2 是 对 象 变量 ， 它 们 可 以 在 关于 顾客 了 的 谓词 上 取 值 。 
关联 规则 的 搜索 限于 匹配 给 定 的 元 规则 的 那些 ， 如 
age(X,"30...39") 和 income(X,"40K...49K")— buys(X,"VCR") [2. 2%, 60%] 
(4. 1) 

























































































和 

occupation(X," student") age(X,"20...29") = buys(X,"computer") [1.4%,70%] (4. 2) 
前 一 个 规则 是 说 30 多 岁 的 顾客 ， 其 年 收入 在 40K 和 49K 之 间 ， 多 半 〈 置 信和 度 60%) 会 买 VCR， 这 种 
情况 占 事务 总 数 的 2. 2%。 后 一 个 规则 是 说 20 多 岁 的 学 生 多 半 “【《 置 信 度 70%) 会 买 计算 机 ， 这 种 情 
况 占 事务 总 数 的 1. 4%。 口 



























































4.1.3 背景 知识 : 概念 分 层 








背景 知识 是 关于 挖掘 领域 的 知识 ， 它 们 在 发 现 过 程 中 是 非常 有 用 的 。 本 小 节 ， 我 们 将 我 们 的 注 
意 力 放 在 一 种 简单 但 功能 很 强 ， 称 作 概 念 分 层 的 背景 知识 上 。 概 念 分 层 允 许 在 多 个 抽象 层 上 发 现 知 


、 
了 No 






















































































正如 第 2 章 介 绍 的 , 概念 分 层 定 义 了 一 组 由 低层 概念 集 到 高 层 概念 集 的 映射 。 一 个 关于 Jocation 
维 的 概念 分 层 如 图 4. 3 所 示 , 将 较 低 层 的 概念 ( 即 , 城市 ) 映射 到 较 高 层 更 一 般 的 概念 ( 即 , 国家 ) 。 

注意 ， 概 念 分 层 结构 以 组 织 成 树 的 结 点 集 表示 ， 其 中 每 个 结 点 本 身 代 表 一 个 概念 。 一 个 特殊 的 
结 点 all 作为 树 根 ， 它 表示 给 定 维 的 最 一 般 的 值 。 如 果 不 显 式 给 出 ， 它 是 缠 涵 的 。 该 概念 分 层 结构 
由 4 层 组 成 。 为 方便 计 ， 概 念 分 层 结构 中 的 层 自 顶 向 下 编号 ， 结 点 all 为 0 层 。 在 我 们 的 例子 ' 
层 1 表示 概念 country， 而 层 2 和 3 分 别 表 示 概 念 province_or_state 和 city。 概 念 分 层 的 树叶 对 
应 于 维 的 原始 数据 值 ( 原 始 层 数据 ) 。 这 些 是 给 定 属性 或 维 的 最 细节 的 值 或 概念 。 尽 管 概念 分 层 结 
构 通 常用 树 形 分 类 的 形式 表示 ， 但 它们 也 可 以 形成 一 般 的 格 或 偏 序 。 


location 






























































TS 
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图 4.3 维 Jocation 的 一 个 概念 分 层 
概念 分 层 是 一 种 有 用 的 背景 知识 形式 ， 它 使 得 原始 数据 可 以 在 较 高 的 、 一 般 化 的 抽象 层 上 进行 


















































处 理 。 数 据 的 泛 化 或 上 卷 可 以 通过 用 较 高 层 概念 〈 如 7ocatzon 的 国家 ，age 的 诸如 “20...39”， 
“40...59” 和 “60+” 这 样 的 区 间 ) 替换 较 低 层 的 概念 〈 如 7ocat7on 的 城市 ，age 的 数值 值 ) 来 
实现 。 这 使 得 用 户 可 以 在 更 有 意义 、 更 明显 的 抽象 层 观 察 数据 ， 使 得 发 现 的 模式 更 易于 理解 。 泛 化 
的 另 一 个 优点 是 压缩 数据 。 与 在 大 的 、 未 压缩 的 数据 上 挖掘 相 比 ， 在 压缩 的 数据 集 上 挖掘 需要 较 少 
的 1/0 操作 ， 并 将 更 有 效 。 














































































































如 果 结 果 数 据 过 于 一 般 化 ， 概 念 分 
下 钻 ， 用 户 可 以 用 不 同 的 视图 来 观察 数据 ， 洞 察 隐藏 的 数据 联系 。 
成 专家 或 知识 工程 师 提 供 。 通 常 ， 这 些 凤 
下 面 将 看 到 的 ， 许 多 概念 分 层 结构 理 涵 在 数据 库 模 式 中 。 此 外 ， 概 念 分 层 结 
岗 ， 或 根据 数据 分 布 的 统计 分 析 动 态 地 提炼 。 概 念 分 


着 也 


el. 























3 章 详细 讨论 。 





对 于 给 定 的 属 1 
AllElectronics 的 
关于 Zocation 的 概 从 
以 利于 商业 广告 的 分 发 

概念 分 层 有 4 利 
简略 回顾 。 此 外 ， 我 们 还 大 











概念 分 层 结构 可 以 1 
或 应 用 的 。 正 如 我 们 在 
构 通常 可 以 自动 地 发 


系统 用 户 、 领 : 

















生 或 维 ， 根 据 不 同 用 户 的 观点 ， 可 能 




















慨 也 允许 特 化 或 下 钻 ， 概 念 值 月 












































区 销售 经 到 

















分 层 结 构 应 当 是 有 用 的 。 然 而 ， 市 场 部 经 开 


aran 


第 2 章 介 绍 了 最 常用 的 类 型 一 一 模式 分 层 和 集合 分 组 分 


























日 较 低 层 的 概念 奉 代 。 使 用 上 








射 是 面向 特定 数据 




































































究 操作 导出 的 分 层 和 基于 规则 的 分 层 。 





模式 分 层 : 模式 分 层 〈 或 更 严格 地 ， 模 式 定义 的 分 层 ) 是 数据 库 模 式 属 性 间 的 
式 分 层 可 以 形式 地 表示 属性 间 的 语义 联系 。 通 常 ， 一 个 模式 分 层 指定 了 数据 仓库 的 一 个 维 。 


例 4.3 给 定 关系 模式 aqdress， 包 含 属 怕 





























我 们 可 以 用 如 下 全 序 定 义 Jocation 模式 分 层 结构 : 








有 街道 、 省 或 州 、 























序 或 偏 序 。 当 两 种 类 型 的 分 层 结构 结合 时 ， 集 合 分 组 分 层 可 以 用 于 精炼 或 丰富 模式 定义 的 分 层 。 通 




















常 ， 集 合 分 组 分 层 








street < city < province or state < country 


这 意味 street 的 概念 层 低 于 city，city 低 
于 country。 模 式 分 层 提 供 元 数据 ( 即 ， 关 于 数据 的 数据 》 信 ， 
国家 的 等 价 定义 要 简明 得 多 。 口 


集合 分 组 分 层 : 集合 分 组 分 层 将 给 定 属性 或 维 的 值 组 织 成 常量 组 或 





























层 结 构 的 自动 产生 已 在 第 


了 多 个 概念 分 层 结构 。 例 如 ， 假 定 
E 想 要 研究 不 同 地 方 顾客 的 购买 习惯 ， 对 于 这 样 的 挖掘 任务 ， 图 4. 3 
可 能 更 希望 Jocation 按 语言 组 织 ， 























屋 ， 这 里 我 们 将 











全 序 或 偏 序 。 模 














区 间 值 。 组 之 间 可 以 定义 全 

















] 于 定义 对 象 联系 的 小 集合 。 











例 4.4 属性 age 的 集合 分 组 分 层 结构 可 以 用 范围 来 指定 ， 
{young, middle aged, senior} cc all(age) 
{20...39} C young 
{40...59} cc middle aged 
{60...89} cc senior 


注意 ， 正 如 3. 5 节 解 释 的， 类 似 的 说 明 也 可 以 自动 产生 。 口 


操作 导出 的 分 层 : 操作 























导出 的 分 层 是 根据 用 户 、 专 家 或 数据 挖 














能 包括 信息 编码 串 的 解码 ， 由 复杂 数据 对 象 提取 信息 和 数据 聚 类 。 














例 4.5 一 个 e-ma7i7 地 址 或 WW 的 URL 可 能 包含 涉及 部 门 、 学 校 (或 公司 ) 和 国 

















可 以 使 用 解码 操作 来 提取 信息 ， 形 成 概念 分 层 。 

例如 ，e-mai7 地 址 “qiwbook@cs. sfu. ca” 给 出 部 分 序 “ Jogin-name < department < university 
< country”， 形 成 了 e-mai17 地 址 的 一 个 概念 分 层 。 
“http://www, cs. sfu. ca/research/DB/DBNUiner” 解 翁 ， 提 供 一 个 形成 VL 的 概念 分 层 的 基 。 口 


基于 规则 的 分 层 ， 基 于 规则 的 分 层 是 指 整 个 概念 分 
当前 数据 库 数据 和 规则 定义 动态 地 计算 。 


例 4.6 下 面 的 规则 可 以 用 于 将 AllElectron 
medium profit margin 和 high profit margin。 上 其 


























层 或 它 的 一 部 分 由 一 组 规则 定义 ， 并 且 根 据 














FE street, city, province or state 和 和 country, 


于 province or _ state， 而 province or state 低 


昌 。 使 用 全 序 或 偶 序 的 说 明 比 列 出 所 























| 


图 系统 说 明 的 操作 分 层 。 操 作 可 


家 的 层次 信息 。 


类 似 地 ， 可 以 对 URL 地 址 








ics 的 商品 分 类 为 low profit marsin, 


PF， 商 品 了 的 价格 差 定 义 为 了 的 销售 价格 和 实 





际 价格 的 差 。 价 格 差 小 于 $50 的 商品 定义 为 7ow_profit_marsin 商品 ， 获 利 $50 和 $250 之 间 的 商品 
定义 为 medium profit margin 商品 ， 而 获 利多 于 $250 的 商品 定义 为 high profit 2157Z 太 商品。 


Jow profit margin(®D © price(% PI]) 和 A cost(% PD A ((P1I-PD < $50) 


medium profit margin(D © price(% PI1) 和 A cost(% PD A ((P1- > $50) A ((P1-PD < 


$250) 


high profit margin(D © price(% PI1) A cost( 丰 9 A ((CP1-P3 > $250) 部 

















使 用 概念 分 














4.1.4 ”兴趣 度 度量 


尽管 任务 相关 的 数据 和 要 挖掘 的 知识 类 型 (例如 ， 
生 大 量 模 











则 的 数量 ， 数 据 挖掘 过 程 仍 然 可 能 产 








层 进行 数据 挖 据 在 本 书 的 剩余 








中 全 壮 匠 介 


绍 。 





时 IT 











特征 、 关 联 等 ) 的 说 明 可 





以 大 幅度 减少 产生 规 


























式 : 





趣 的 。 这 样 ， 用 户 需 要 进一步 限制 挖 拥 





过 程 产 9 


























量 来 实现 。 兴 趣 度 度量 评估 

本 小 节 ， 我 们 研究 模式 兴 
种 度量 都 有 一 个 可 以 由 用 户 控制 的 阐 
识 向 用 户 提 供 。 






























































模式 的 简洁 性 、 
< 趣 度 的 客观 度 
值 。 











全 


三 


里 


不 














通常 ， 这 些 
E 的 不 感 兴趣 的 模式 数量 。 








“模式 中 只 有 一 小 部 分 是 特定 用 户 感 兴 


这 可 以 通过 设 定 兴趣 度 度 


























定性 、 


实用 性 和 彰 








有 疾 性 。 








。 这 种 客观 度 和 


又 








满足 阔 值 




















的 规 贝 














基于 模式 的 结构 和 统计 。 一 般 地 ， 每 
被 认为 是 不 感 兴趣 的 ， 因 而 不 作为 知 




















简洁 性 ， 模式 兴 趣 度 的 一 个 重要 因 








素 是 对 村 


人 的 





星 解 ， 模 式 的 总 体 简 洁 性 。 








模式 简洁 性 的 客观 











度量 可 以 看 作 模 式 结构 的 函数 ， 




















例如 ， 一 个 规则 的 结构 越 复杂 ， 


它 就 越 难 


解释 








例如 ， 规 则 长 度 是 一 和 
规则 的 长 度 简单 地 定义 为 规则 ， 














7 





中 简洁 性 的 度量 。 对 于 
合 取 符 的 个 数 。 关 联 、 区 别 或 分 类 规则 的 长 度 超过 用 户 定义 的 阔 值 


模式 的 二 进位 位 数 ， 


或 属 





， 从 而 就 可 








性 数 , 或 模式 中 出 现 的 操作 符 数 来 定义 。 
能 对 它 没 多 少 兴 




















时 ， 被 认为 是 不 感 兴趣 的 。 对 于 以 判 


人 丰 














确定 性 : 每 个 发 现 的 模式 都 应 当 有 


j 合 取 范 式 〈 即 ， 


树 表达 的 模式 ， 简 洁 怕 





合 取 谓词 的 集合 ) 表达 的 规则 ， 





























E 可 以 是 树叶 或 树 结 点 的 个 数 的 函数 。 

















个 表示 其 有 效 性 或 “值得 信赖 性 ”的 确定 性 度量 。 对 于 形 

















如 “4 之 8” 的 关联 规则 ， 其 确定 性 度量 














据 库 事务 的 集合 ) ，“4 二 8” 的 置 











包含 A 和 B 的 元 组 数 


confidence(A= B)= 





包含 4 的 元 组 数 








例 4.7 假定 任务 相关 数据 由 
关联 规则 











buys(X,"computer") > buys(X," software") 


意味 买 计算 机 的 顾客 85% 也 买 软件 。 
置信 和 度 为 100% 或 1 意味 在 数 





口 
































对 于 分 类 规则 ， 
pigSpenders) 的 对 象 或 元 组 与 对 
的 分 类 ， 对 比 类 的 许多 对 象 也 在 目标 类 


用 思 关 ， 


性 因子 和 区 分 权 。 
实用 性 : 一 个 模式 的 潜在 的 有 












































是 置信 和 度 。 给 定 一 个 任务 相关 的 数据 元 
言 度 定 义 为 ; 


AllElectronics 的 计算 机 部 的 事务 数组 成 。 








组 集合 〈 或 事务 数 


(4.3) 





一 个 置信 度 为 85% 的 





(4.4) 











(如 支持 度 ) 来 评估 。 关 联 模式 的 支持 度 
对 于 形 如 “4 之 8” 的 关联 规则 ， 














据 分 析 时 ， 该 规则 总 是 正三 
置信 度 称 为 可 靠 性 或 准确 性 。 
比 类 (如 ，pbudgetSpenders) 的 对 每 相 区 别 。 低 可 靠 怕 
中 。 规 则 的 可 靠 怕 


] 性 是 定义 其 兴趣 度 的 一 个 重要 因 














外 的 。 这 种 规则 称 为 准确 的 。 


分 类 规则 提出 了 一 个 模型 ， 将 目标 类 《如 ， 








E 表 明 不 正 
也 称 为 规则 的 强度 ， 规 则 的 质量 ， 确 定 




















一 个 实用 性 函数 





素 。 它 可 以 














是 模式 为 真 的 任务 相关 的 元 组 (或 事务 ) 所 占 的 百分比 。 


包含 A4 和 B 的 元 组 数 


support(A = B)= 





元 组 总 数 


例 4.8 假定 任务 相关 数据 由 AllElectronics 的 计算 机 部 的 事务 数组 成 。 
的 30% 同 时 购买 了 计算 机 和 软件 。 口 


关联 规则 (4. 4) 意味 计算 机 部 的 所 有 顾客 











同时 满足 用 户 定义 的 最 小 置信 和 度 闹 值 


























有 趣 的 。 具 有 较 低 支 持 度 的 
支持 度 定义 的 分 子 通 常 称 
特征 和 区 


























规则 多 半 是 提供 
攻 规 则 计数 。 我 人 
分 描述 基本 上 是 泛 化 元 组 。 其 代表 





噪音 


支持 度 定义 为 


三 | 





和 最 小 支持 度 阔 值 的 关联 规则 利 
音 ， 少 见 或 例外 的 情况 。 


(4.5) 





一 个 支持 度 为 30% 的 





三 | 
征 








你 为 强 关 联 规则 ， 并 认为 




















] 和 常常 显 














都 被 视 为 噪音 。 因 





此 ， 这 样 








的 元 组 不 向 用 户 提供 。 








7 值 





示 该 什 
的 元 组 数 少 于 
称 为 噪音 








而 不 是 支持 度 。 文 持 度 容易 由 它 导 出 。 
整个 任务 相关 元 组 数 的 成 的 泛 化 元 组 
闵 值 。 
































新 颖 性 ， 新颖 的 模式 是 那些 提供 信息 或 提高 给 定 横 式 集 性 能 的 模式 。 例 如 ， 一 个 数据 例外 可 以 








认为 是 新 颖 的 ， 它 不 同 于 根据 统计 模型 和 用 户 的 信念 押 期 望 的 模式 。 检 测 新 颖 性 的 号 一 策略 是 删除 
匈 余 模 式 。 如 果 发 现 的 规则 被 已 在 知识 库 中 或 导出 的 规则 集中 的 另 一 规则 所 蕴涵 ， 则 两 个 规则 都 要 





重新 审查 ， 以 便 去 掉 潜 在 的 见 余 。 













































































使 用 概念 分 层 挖 掘 可 能 导致 大 量 兄 余 规则 。 例 如 ， 假 定 下 列 关 联 规则 使 用 图 4. 3 关于 location 
的 概念 分 层 ， 由 AllElectronics 的 数据 库 中 挖掘 出 : 














location(X,"Canada") 一 buys(X,"SONY _TV") [8%, 70%] 
(4. 6) 
location(X,"Montreal") = buys(X,"SONY _TV'") [2%, 71%] 
(4.7) 











假定 规则 (4. 6) 具有 8% 的 支持 度 和 70% 的 置信 和 度 。 可 以 预料 规则 (4. 7) 也 大 约 有 70% 的 置信 度 ， 














因为 代表 的 Montreal 

















所 有 数据 对 象 也 是 Canada 的 数据 对 象 。 规 则 (4. 6) 比 规则 (4. 7) 更 一 般 ， 因 此 


























我 们 预料 前 一 个 规则 比 后 一 个 规则 更 常 出 现 。 结 果 ， 两 个 规则 不 应 当 具 有 相同 的 支持 度 。 假 定 的 销 
售 大 约 有 四 分 之 一 来 自 Montreal。 我 们 预料 涉及 Montreal Canada 的 规则 的 


支持 度 的 四 分 之 一 。 换 一 句 话说， 我 们 预料 规则 (4. 7) 的 支持 度 为 8%x 二 =2% 。 如 果 规则 (4.7) 的 






























































实际 置信 度 和 支持 度 是 可 预料 的 ， 则 它 应 当 是 元 祭 的， 因为 它 不 提供 附加 的 信息 ， 并 且 _ 般 性 不 如 























规则 (4. 6) 。 这 些 思想 


数据 挖掘 系统 应 当 人 允许 用 户 自由 地 、 交 互 地 说 明 、 测 试 和 修改 兴 《 趣 度 度量 和 它们 对 应 的 阔 值 。 
除了 以 上 我 们 研究 的 基本 度量 之 外 ， 还 有 许多 其 它 客 观 度量 。 除 了 客观 的 统计 度量 之 外 ， 主 观 度量 
































在 第 6 章 关 于 关联 规则 挖掘 时 进一步 讨论 。 


































































































同样 存在 。 主 观 度量 考虑 用 户 对 数据 问 联系 的 信赖 。 兴 趣 度 度量 更 详尽 的 讨论 将 在 贯穿 本 书 。 


规则 
agelt 2," young") and ncometX, "lueh'") => classtX,"&") 
agel2," youne") and ncomelX," low") => classt2,"B") 
agel2,"old") => classt2,"C") 


youmg | 1,402 | 1.038 | 1,402 |1,038 
old 786 | 1,374 0 2,160 








图 4.4 发 现 的 模式 的 表示 和 可 视 化 的 各 种 形式 





4.1.5 发现 模式 的 提供 和 可 视 化 








“如 何 “观看 ”发 现 的 模式 ? ”数据 挖 抉 要 成 为 有 效 的， 数据 挖 气 系 统 就 应 当 能 够 以 多 种 形式 
显示 所 发 现 的 模式 , 如 规则 、 表 、 交叉 表 、 人 饼 图 或 条 图 、 判定 树 、 数 据 方 或 其 它 可 视 化 表示 (图 4. 4)。 
允许 发 现 的 模式 以 多 种 形式 表示 可 以 帮助 不 同 背景 的 用 户 识别 有 趣 的 模式 ， 并 与 系统 交互 或 指导 
一 步 的 发 现 。 用 户 应 当 能 够 指定 用 于 显示 发 现 模式 的 表示 形式 。 

概念 分 层 的 使 用 在 帮助 用 户 观察 发 现 的 模式 中 起 重要 作用 。 使 用 概念 分 层 挖 气 允 许 发 现 的 模式 
在 高 层 概念 表示 ， 这 可 能 比 用 原始 数据 概念 表达 的 规则 〈 如 ， 函 数 或 多 值 依赖 规则 ， 或 整体 性 限制 ) 
更 容易 理解 。 此 外 ， 数 据 挖 气 系 统 应 当 能 够 利用 概念 分 层 实现 下 钻 、 上 卷 操作 ， 使 得 用 户 可 以 在 多 
个 抽象 级 审视 发 现 的 模式 。 转 轴 (旋转 ) 、 切 片 和 切 块 操作 也 能 帮助 用 户 从 不 同 视角 观察 泛 化 数据 
和 知识 。 这 些 操 作 已 在 第 2 章 详细 讨论 。 一 个 数据 挖 据 系统 应 当 对 任意 维 ， 以 及 每 个 维 的 特定 值 提 
供 这 些 交 互 操作 。 

对 于 特定 的 知识 类 ， 某 些 表示 形式 可 能 比 其 它 的 更 合适 。 例 如 ， 对 于 特征 描述 ， 泛 化 规则 和 对 
应 的 交叉 图 或 饼 图 /条 图 是 好 的 表示 形式 ， 而 对 于 分 类 ， 判 定 树 是 通常 的 选择 。 诸 如 4. 1.4 小 节 介 
绍 的 兴趣 度 度 量 可 以 显示 在 每 个 发 现 的 模式 上 ， 帮 助 用 户 识 别提 供 有 用 知识 的 那些 模式 。 




















































































































































































































4.2 一 种 数据 挖掘 查询 语言 














“为 什么 有 
特别 的 和 交互 的 数据 挖 据 ， 以 不 














个 数据 挖 抉 查询 语言 很 
I 于 灵活 和 有 效 的 知识 发 现 。 可 以 设计 数据 挖 


HE9 » 


EE 要 ? 











加 忆 一 下 ， 数 据 挖掘 系统 的 期 望 特点 是 能 够 文 持 

















种 特点 。 


通过 观察 关系 数据 库 系 统 的 历史 ， 也 可 以 明 
主宰 数据 库 市 场 儿 十 年 。 
EE 要 作用 。 





数据 库 系统 已 经 3 
广泛 认为 它 对 关系 数据 库 的 成 功 起 了 习 




















加 查询 语言 ， 来 支持 这 























设计 一 个 好 的 数据 挖掘 查询 语言 的 重要 性 。 关 系 




















关系 查询 语言 的 标准 














化 始 于 关系 数据 库 
尽管 每 个 商品 化 的 关系 数据 库 系 统 都 有 




















开发 的 早期 阶段 ， 


图形 用 





曲 


























户 界面 ， 但 是 每 个 界面 下 面 的 核 都 是 标准 关系 查询 语言 。 关 系 查 询 语言 的 标准 化 为 关系 数据 库 系 统 




















的 发 展 和 进化 提供 了 基础 。 

















言 对 于 数据 库 系统 的 成 功 ] 
数据 控 气 系统 平台 开发 标准 化 。 

设计 一 个 易 理解 的 数据 控 ， 
关联 规则 、 数 据 分 类 和 进化 分 析 ， 每 和 












































加 语言 是 一 个 挑战 ， 因 














为 数据 挖 





























里 解 各 种 数据 挖 抉 任务 的 能 








、 限 制 和 潜在 机 秆 


任务 都 有 不 同 的 需求 。 有 效 的 数据 挖 所 








一 
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有 

















如 何 设计 数据 挖掘 查询 语言 ? 在 本 章 的 前 


任务 的 原 语 。 这 些 原 语 说 明 : 




















































































































， 我 们 考虑 J 





全 






























































因此 ， 具 有 一 个 好 的 数据 挖掘 查询 语言 


它 促 进 了 信息 交换 和 技术 转换 ， 推 动 了 关系 数据 库 技 术 的 商品 化 和 广泛 
接受 。 数 据 库 系统 最 近 的 标准 化 活动 ， 如 涉及 SQL-3 的 工作 ， 进 一 步 说 明 上 共有 一 和 
于 发 和 商品 化 的 重要 性 。 


标准 的 数据 库 语 


各 有 








助 了 














加 任务 涉及 面 宽 。 由 数据 特征 到 挖掘 





语言 的 设计 需要 深入 





j 数 据 挖掘 查询 形式 的 定义 数据 挖掘 























晶 ” 待 挖 据 的 相关 数据 集 

四 要 挖掘 的 数据 类 型 

四 ”用 于 发 现 过 程 的 背景 知识 

四 ”模式 评估 的 兴趣 度 度量 和 立 值 
加 ”可视化 发 现 模 式 的 期 望 表 示 

基于 这 些 原 语 ， 我 们 设计 一 种 数据 挖掘 查询 语言 DMQL。DMQL 是 Data Mining Query Language 
(数据 挖掘 查询 语言 ) 的 缩写 。DMQL 允许 在 多 个 抽象 层 上 ， 由 关系 数据 库 和 数据 仓库 进行 多 种 类 型 
知识 的 特殊 挖掘 ”。 

该 语言 采用 类 似 于 SQL 的 语法 ， 因 此 它 易 于 和 关系 查询 语言 SQL 集成 在 一 起 。DMQL 的 语法 采用 
扩充 的 BNF 文法 定义 ， 其 中 “[ ]” 表 示 0 次 或 1 次 出 现 ，“1{ } ”表示 0 次 或 多 次 出 现 ， 黑 体 字 表 
示 关 键 词 。 

由 4.2.1 到 4.2.5 小 节 介 绍 每 种 数据 挖掘 原 语 的 DMQL 语法 。 在 4. 2.6 小 节 , 我 们 用 该 语法 给 出 
一 个 数据 挖掘 查询 的 例子 。 语 言 的 顶层 概述 如 图 4. 5 所 示 。 

2 定义 数据 仓库 和 数据 集 市 的 DMOL 语法 已 在 第 2 章 给 出 。 




















<DMQL> : :=《DMQL Statement>; {<DMQL Statement>} 
<DMQL Statement> = <Data Mining Statement> 

| 《Concept Hierarchy Definition Statement> 
| <Visualization and Presentation> 





<Data Mining Statement> ::= 
use database <database name> | use data warehouse 
ta warehouse name> 
{use hierachy <hierachy name> for “attribute or dimension>} 
<Mine Knowledge Specification> 
in relevance to < attribute or dimension list> 
from relation(s)/cube> 
[where <condition>] 
[order by order list>] 
[group by <grouping list>] 
having 《condition>] 
{with [<intetest measure _name>] threshold =《 threshold value> 
[for <attribute(s) >]} 
<Mine Knowledge Specification> ::=<Mine Char> | Mine Discr> | Mine Assoc> 
| <Mine Class > 
<Mine Char> ::= mine characteristics [as 《pattern name>] 





analyze 《measure (S) > 
<Mine Discr> ::= mine comparison [as <pattern name>] 
for <target class> where 《<target condition> 
{versus 《contract class i> where contract cndition i>} 
analyze measure(s)> 
<Mine Assoc> ::= mine associations [as 《pattern name>] 
[matching “metapatterny>] 


<Mine Class> ::= mine classfication [as 《pattern name>] 
analyze <classfying attribute or dimension> 
<Concept Hierarchy Definition Statement> ::= 
define hierarchy < hierarchy name> 
[for <attribute or dimension>] 
on <relation or cube or hierarchy> 
as 《< hierarchy description> 
[where <condition>] 
<Visualization and Presentation> ::= 
display as <result form> | {<Multilevel Manipulation>} 
<Multilevel Manipulation> ::= roll up on 《<attribute or dimension> 
| drill down on attribute or dimension> 
| add Kattribute or dimension> 
| drop 《attribute or dimension> 





图 4. 5: 数据 挖掘 查询 语言 DMQL 顶层 语法 











4.2.1 任务 相关 数据 说 明 的 语法 


定义 数据 挖掘 任务 的 第 一 步 是 说 明 任务 相关 的 数据 。 这 涉及 说 明 包含 相关 数据 的 数据 库 和 表 或 
数据 仓库 ， 选 择 相 关 数 据 的 条 件 ， 相 关 属 性 或 维和 关于 所 提取 的 数据 的 排序 和 分 组 的 指令 。DMQL 提 
供 了 一 些 子 句 来 说 明 这 些 信息 ， 如 下 所 述 















































ma use database《database_name> 或 use data warehouse 《data warehouse name》: use 子 句 将 
数据 挖掘 任务 指 问 说 明 的 数据 库 或 数据 仓库 。 
ma from 《relation(s)/cub(s)> [where 《condition》]: from 和 where 子 句 分 别 指定 所 涉及 的 表 或 
数据 方 和 定义 提取 数据 的 条 件 。 
mn in relevance to < attribute or dimension list》: 该 子 句 列 出 要 探查 的 属性 和 维 。 
mn order by 《order list>: order by 子 句 说 明 任 务 相 关 的 数据 排序 的 次 序 。 
mn group by 《grouping list>: group by 子 句 说 明 数 据 分 组 标准 。 
= having 《condition》: having 子 句 说 明 相关 数据 分 组 条 件 。 
这 些 子 句 形成 一 个 SQL 查询 ， 收 集 任务 相关 的 数据 。 
例 4.9 本 例 展 示 如 何 用 DMQL 说 明 例 4. 1 描述 的 任务 相关 的 数据 。 例 4. 1 是 挖掘 由 加 拿 大 顾客 
在 AllElectronics 经 常 购买 的 商品 之 间 的 关联 规则 ， 涉 及 顾客 的 jncome 和 age。 此 外 ， 用 户 指出 
他 想 将 数据 按 日 期 分 组 。 这 些 数据 由 关系 数据 库 提 取 。 
use database AllElectronics db 
in relevance to I.name, [. price, C. income, C. age 
from customer C, item I, purchases P, items sold S 
Where I. iitem ID = S. itme ID and S. trans ID = P trans ID and P.cust ID = C.cust ID 


and C.country = “Canada” 
group by P. date 

























































































口 


4.2.2 ”说 明 挖掘 知识 类 型 的 语法 






































《Mine_ Knowledge Specification> 语 句 用 于 说 明 挖掘 知识 的 类 型 。 换 一 句 话说 ， 它 指定 用 于 执 
行 的 挖掘 函数 。 下 面 定 义 的 语法 用 于 特征 、 区 分 、 关 联 和 分 类 。 
特征 
<Mine Knowledge Specification>::= 
mine characteristics [as pattern name>] 
analyze measure(s)> 


这 说 明 挖 掘 特征 描述 。 当 用 于 特征 时 ，analyze 子 句 指定 聚集 度量 ， 如 count，sunm 或 count% 
《百分比 计数 ， 即 指定 的 特征 在 相关 数据 元 组 中 的 百分比 ) 。 这 些 度量 将 对 每 个 找到 的 数据 特征 进 
行 计算 。 

例 4.10 下 面 说 明 挖掘 的 知识 类 型 是 反映 顾客 购买 习惯 的 特征 描述 。 对 于 每 一 个 特征 ， 显 示 满 
足 特 征 的 任务 相关 元 组 的 百分比 。 

mine characteristics as customerPurchasing 


analyze count% 
回 














































































































区 分 


<Mine Knowledge _ Specification>::= 
mine comparison [as 《pattern name>] 
for <target class> where <target condition> 
{versus 《contract class i> where contract cndition i>} 
analyze 《measure(s)> 





这 说 明 挖 掘 区 分 描述 。 区 分 将 给 定 的 目标 类 的 对 象 与 一 个 或 多 个 对 比 类 的 对 象 进行 比较 。 因 此 ， 
这 类 知识 也 称 为 比较 。 与 特征 一 样 ，analyze 子 句 指定 聚集 度量 ， 如 count，sunm 或 count%， 将 对 
每 个 描述 进行 计算 和 显示 。 


例 4.11 用 户 可 以 定义 顾客 类 ， 然 后 挖掘 每 类 的 区 分 。 例 如 ， 用 户 可 以 定义 bigSpenders 为 购 
买 商 品 平均 价格 $100 或 更 多 的 顾客 ， 而 budgetSpenders 为 购买 商品 平均 价格 不 足 $100 的 顾客 。 挖 
握 每 类 顾客 的 区 分 描述 可 以 用 如 下 DMQL 说 明 ， 其 中 ， 了 表示 item 关系 。 满 足 每 个 区 分 的 任务 相关 
的 元 组 将 被 显示 。 


mine comparision as purchaseGroups 

for bigSpenders where avg(I. price)>$100 

versus budgetSpenders Where avg(I. price)《$100 

analyze count 口 












































































































































关联 
“Mine _ Knowledge Specification>: := 
mine associations las 《pattern name>] 
[matching “metapattern>] 

这 说 明 关 联 模 式 的 挖掘 。 在 说 明 关 联 挖掘 时 ， 用 户 可 以 选用 matching 子 句 ， 提 供 模板 〈 又 称 元 
模式 或 元 规则 ) 。 元 模式 可 以 用 来 将 发 现 集 中 于 与 给 定 元 模式 匹配 的 模式 ， 从 而 强化 了 对 挖掘 任务 
的 句法 限制 。 除 提供 名 法 限制 外 ， 元 模式 提供 了 用 户 有 兴趣 探查 的 数据 束 或 假定 。 具 有 元 模式 的 挖 
掘 ， 或 元 模式 指导 的 挖 握 ， 允 许 特定 挖掘 的 更 多 灵活 性 。 尽 管 元 模式 可 以 用 于 其 它 形 式 知 识 的 挖掘 ， 
但 是 它们 对 关联 规则 的 挖掘 最 有 用 ， 因 为 潜在 的 关联 规则 数目 太 大 。 

例 4.12 例 4.2 的 元 模式 可 以 指定 用 来 下 面 描述 顾客 购买 习惯 的 关联 规则 挖掘 . 


mine association as buyingHabits 
matching P(X:customer,W) 和 Q(X,Y) = buys(X, 7) 


其 中 ， 是 关系 customer 的 关键 字 ; P 和 9 是 谓词 变量 ， 它 们 可 以 被 例 示 作 为 任务 相关 数据 说 明 的 
相关 属性 或 维 ， 失 了 和 2 是 对 象 变量 ， 它 们 可 以 分 别 在 对 应 的 顾客 工 的 谓词 上 取 值 。 口 


分 类 


<Mine Knowledge Specification>::= 
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mine classfication las <pattern name>] 
analyze <classfying attribute or dimension> 


这 说 明 挖掘 数据 分 类 模式 。analyze 子 句 说 明 根 据 <classfying attribute or dimension》 的 值 
进行 分 类 。 对 于 分 类 属性 或 维 ， 每 个 值 通常 代表 一 个 类 (对 于 属性 credit rating, 如 “Jow-risk”, 
“medium-risk”,， “high-ris 扩 等 ) 。 对 于 数值 属性 或 维 ， 每 个 类 可 以 用 一 个 值 区 间 定 义 〈 对 于 age， 
如 “20-39”，“40-59”，“60-89”) 。 分 类 提供 了 一 个 简明 的 框架 ， 它 最 好 地 描述 了 每 个 类 并 将 它们 与 
其 它 类 相 区 别 。 

































































































































































例 4.13 为 挖掘 顾客 的 信用 等 级 模式 ， 可 以 使 用 以 下 DMQL 说 明 。 这 里 ， 信 用 等 级 由 属 人 
credit_ rating 人 确定 。 
mine classfication as classfyCustomerCreditRating 
analyze credit rating 


图 


除 上 述 类 型 外 ， 数 据 挖 掘 查 询 语 言 也 应 当 允 许 说 明 控 据 其 它 类 型 的 知识 。 包 括 数据 聚 类 、 演 变 
规则 或 序列 模式 和 侦 差 的 挖掘 。 





























4.2.3 ”概念 分 层 说 明 的 语法 























概念 分 层 允 许 在 多 个 抽象 层 上 挖掘 知识 。 为 适应 用 户 看 符 数 据 的 不 同 角度 ， 每 个 属性 或 维 可 能 


























有 多 个 概念 分 层 。 例 如 ， 有 的 用 户 想 按 省 或 州 组 织 分 店 地 址 ， 而 另 一 些 


















































组 织 。 在 这 种 情况 下 ， 用 户 可 以 使 用 如 下 语句 指出 他 要 用 哪个 概念 分 层 
use hierachy <hierachy> for 《attripute or dimension> 


否则 ， 将 使 用 属性 或 维 的 系统 设 定 的 概念 分 层 。 



































“我 们 如 何 用 DMQL 定义 概念 分 层 ? ”在 4. 1. 3 小 节 ， 我 们 研究 了 四 种 类 型 





























j 户 可 能 想 根 据 所 





+ 概念 分 层 。 让 我 们 看 

















的 语言 











address as 


些 定义 概念 分 层 的 例子 。 
例 4.13 前 面 ， 我 们 用 全 序 street 《< city 《province or state 《< country 为 address 定 义 
了 一 个 模式 分 层 。 这 可 以 用 数据 挖掘 查询 语言 定义 为 
define hierarchy location hierarchy on 
[street, city, province or state, country] 























属性 列 出 的 次 序 是 重要 的 。 事 实 上 ， 它 定义 了 一 个 全 序 ， 指 
而 cjty 比 province_or_state 低 一 个 概念 层 ， 如 此 下 去 。 口 


例 4.15 Re 4.4 中 age 的 集 
其 中 ， 为 方便 计 ， 最 一 般 的 概念 


define hierarchy age hierarchy for age on customer as 









































合 分 组 分 层 可 以 用 值 
all 放 在 分 层 结构 的 根 上 《〈 即 ， 在 第 0 层 ) 。 


39} ”代表 包括 站 


出 street 比 city 低 一 个 概念 层 ， 











区 间 定 义 如 下 。 











点 在 内 20 到 39 











levell: {young, middle aged, sinior} < level0: all 
level2: {20...39} < levell: young 
level2: {40...59} < levell: middle aged 
level2: {60...89} < levell: senior 
记号 “...” 表 示 给 定 区 间 内 所 有 可 能 的 值 。 例 如 ，“ {20... 
之 间 的 所 有 整数 。 区 间 也 可 以 用 实数 作为 端点 。 对 应 的 概念 分 层 如 图 4. 6 所 示 。 口 
level0 all 
levell youhng riddle_aged senior 
lewel2 20... 39 40... 59 60...89 
图 4.6 age 的 一 个 概念 分 层 
附加 的 例子 留 作 习题 。 
4.2.4 兴趣 度 度量 说 明 的 语法 
用 户 可 以 通过 说 明 模 式 的 兴趣 度 和 它们 的 对 应 阔 值 ， 控 制 数 据 挖掘 系统 

















回 的 不 感 兴趣 的 模式 





数量 。 兴 趣 度 度量 包括 4. 1. 4 小 节 介 2 
人 句 说 明 兴 趣 度 度量 和 它 的 阔 值 : 





的 置信 和 度 、 支 持 度 、 噪 音 和 新 颖 性 度 















































with [<interest measure _name>] threshold =《 threshold value> 


如 下 语句 限制 找到 的 规则 分 别 满足 最 小 支持 度 和 最 小 





























例 4.16 在 挖掘 关联 规则 时 ， 用 户 可 能 
置信 度 阔 值 5% 和 70% 

With Support threshold = 5% 

with confidence threshold = 70% 口 


























返 
重 























户 可 以 





如 下 语 











o 

















可 以 交互 地 设置 和 修改 兴趣 度 度量 和 阔 值 。 




















4.2.5 ”模式 提供 和 可 视 化 说 明 的 语法 







































































“用 户 如 何 说 明显 示 发 现 模 式 的 表示 和 可 视 化 形式 ? ”我们 的 数据 挖掘 语言 需要 一 种 语法 ， 使 
得 用 户 可 以 说 明 用 一 种 或 多 种 形式 显示 发 现 的 模式 。 这 些 形式 包括 规则 、 表 、 交 叉 表 、 饼 图 、 判 定 
树 、 方 、 曲 线 等 。 为 此 ， 我 们 定义 display 语句 : 


display as <result form> 


其 中 , 《result_form> 可 以 是 以 上 列举 的 知识 表示 和 可 视 化 形式 。 

交互 挖掘 应 当 允 许 由 不 同 的 概念 层 或 不 同 的 角度 来 观察 发 现 的 模式 。 这 可 以 用 第 2 章 介绍 的 上 
卷 和 下 钻 等 操作 来 实现 。 通 过 沿 属性 或 维 的 概念 分 层 向 上 攀升 〈 用 较 高 层次 的 概念 值 替 换 较 低层 次 
的 概念 值 ) ， 模 式 可 以 被 上 卷 或 在 更 一 般 的 层次 上 观察 。 泛 化 也 可 以 用 丢弃 属性 或 维 来 进行 。 例 如 ， 
假定 模式 中 包含 了 属性 city。 给 定 分 层 结构 city prorrnce or state 《< country 《< continent, 
则 由 模式 丢弃 city 将 泛 化 数据 到 下 一 个 较 高 层 province_or_state。 通 过 沿 属 性 或 维 的 概念 分 层 下 
降 ， 模 式 可 以 被 下 钻 或 在 较 细 的 层次 上 观察 。 通 过 添加 属性 或 维 到 模式 ， 也 可 以 使 它 特 化 。 添 加 的 
属性 必须 是 任务 相关 说 明 的 relevance to 子 句 中 列 出 的 属性 。 用 户 可 以 用 以 下 DMQL 语法 交替 地 在 
不 同 抽象 级 观察 模式 : 


<Multilevel manipulation> ::= roll up on attribute or dimension> 
| drill down on attribute or dimension> 
| add “attribute or dimension> 
| drop Cattribute or dimension> 




































































































































































be 






































例 4.17 假定 描述 是 基于 维 Jocation, age 和 jncome 的 挖 据 。 可 以 “roll up on location”， 
或 “drop age”， 泛 化 发 现 的 模式 。 口 














4.2.6 ”汇集 一 一 一 个 DMQL 查询 的 例子 





在 上 面 的 讨论 中 ， 我 们 用 五 种 数据 挖掘 原 语 给 出 了 说 明 数 据 控 掘 查 询 的 语法 。 对 于 一 个 给 定 的 
查询 ， 这 些 原 语 定义 任务 相关 的 数据 ， 要 挖掘 的 知识 类 型 ， 概 念 分 层 和 兴趣 度 度量 ， 以 及 模式 可 视 
化 表示 形式 。 这 里 ， 我 们 把 这 些 成 分 汇集 在 一 起 ， 看 一 个 DMQL 查询 的 完整 说 明 。 


例 4.18 挖掘 特征 描述 。 假 定 你 作为 AL1Electronics 的 市 场 经 理 ， 希 望 知道 购买 商品 的 价格 
不 低 于 $100 的 顾客 的 购买 习惯 特征 ， 涉 及 顾客 的 年 龄 、 所 购 商 品类 型 和 商品 的 产地 。 对 于 所 发 现 的 
每 个 特征 ， 你 希望 知道 具有 这 种 特征 的 顾客 所 占 的 百分比 。 特 殊 地 ， 你 只 关心 在 加 拿 大 的 购买 ， 并 
且 用 American Express (“AmEx”) 信用 卡 付 款 。 你 希望 以 表 的 形式 观察 发 现 结果 。 该 数据 挖掘 查询 用 
DMQL 表达 如 下 : 


use database AllElectronics db 

use hierarchy location hierarchy for B.address 
mine characteristics as customerPurchasing 
analyze count% 





























































































































in relevance to C. age, I. type, I.place made 
from customer C, item TI, purchases P, items sold S, works at VW,branch B 
Where I. item ID=S. item ID and S. trans_ ID=P. trans_ID and P. cust ID=C. cust_ID 
and P. methold paid=“AmEx” and P. empl ID=W. empl_ID 
and W. branch ID=B. branch_ ID and B. address=‘“Canada” and I. price>100 
with noise threshold=5% 
display as table 





该 数据 挖掘 查询 被 分 析 ,， 形成 



































昌 特 征 规则 的 算法 























AllElectronics 数据 库 提取 任务 相关 数据 的 SQL 查询 。 使 用 图 
4.3 的 概念 分 层 结构 Jocation_hierarchy 产生 分 店 位 置 高 层次 概念 ， 如 “Canada”。 
于 产生 泛 化 数据 的 挖 























然后 ， 运 行 用 
KE 。 控 掘 特征 规则 的 算法 在 第 5 章 介 绍 。 挖 掘 的 特征 规则 由 属 
性 age，type 和 place made 导出 ， 以 表 或 广义 关系 〈 表 4.1) 的 形式 显示 。 满 
































足 每 个 广义 元 组 的 任 


人 L 


务 相 关 的 元 组 数 作 为 count% 的 结果 以 百分比 表示 。 如 果 不 指 定 可 视 化 形式 ， 则 使 用 省 缺 的 形式 。5% 








的 噪音 闵 值 意味 总 计数 低 于 5% 的 发 现 元 组 都 被 忽略 而 不 显示 。 口 


表 4.1: 表 形 式 的 特征 描述 ， 或 泛 化 关系 

















类 似 地 ， 可 以 给 出 区 分 、 关 联 、 分 类 和 预测 的 数据 挖 
研究 这 些 知 识 类 型 的 挖掘 。 





































































































age type place made count% 
30. ..39 ”家 庭 安全 系统 美国 19 
40. ..49 “家庭 安全 系统 美国 15 
20. . . 29 CD 播放 机 本 26 
30...39 CD 播放 机 美国 13 
40...49 大 屏 大 TY 本 8 

100% 























在 下 面 几 章 给 出 ， 那 里 分 别 























4.2.7 ”其它 数据 挖掘 语言 和 数据 挖掘 原 语 的 标准 化 


“在 本 书 中 ， 你 已 介绍 了 DMQL。 还 有 其 它 数据 挖 



































GetRules 和 SelectRules 这 样 的 原 语 ， 用 于 规则 泛 化 和 规则 选择 。 由 于 它 对 数据 和 规则 的 处 理 是 一 


致 的 ， 因 此 ， 通 过 进行 有 选择 的 、 基 于 查询 的 数据 泛 化 ， 或 通过 操作 或 查询 产生 的 规则 集 ， 可 以 实 





现 优化 。 


数据 挖掘 语言 设计 方面 的 其 它 研究 成 果 包 括 MINE RULE 操作 ，! 
[MPC96] 。 它 遵循 类 SQL 语法 , 并 作为 规则 产生 查询 





Abitboul，Clifton 等 


据 (CDM) 0LE DB。 这 是 朝 背 
语言 将 帮助 加 强 数据 挖掘 产业 ， 有 利于 数据 挖 





的 共享 。 


















































MSQL 是 一 种 数据 挖掘 查询 语言 ，| 






























































导语 言 吗 ? ”在 本 书 中 ，DMQL 用 
究 成 果 和 对 挖掘 原 语 和 语言 标准 化 














昌 查 询 的 完整 的 DMQL 说 明 。 查 询 的 例子 将 


于 介绍 数据 挖 




















据 原 语 和 概念 。 除 此 以 外 ， 还 有 其 它 一 些 设计 数据 挖 抉 语言 的 
的 产业 成 果 。 这 里 ， 我 们 介绍 一 些 例子 。 关 于 语言 和 标准 的 详细 信息 可 以 在 本 章 文 表 
献 中 找到 。 














大 注释 开 列 的 文 





Imielinski 和 Vermani 提出 [IV99]。 该 语言 使 用 类 SQL 语 


法 和 包括 排序 和 分 组 在 内 的 SQL 原 语 。 由 于 在 数据 挖掘 时 














































































































E 化 前 进 的 引信 注目 
昌平 台 和 数据 挖掘 系统 的 了 



































于 挖掘 关联 规则 。 另 一 种 提议 由 
是 出 [TUA+98] ， 使 用 Datalog 语法 表示 查询 群 。 这 有 利于 挖 志 
“数据 挖掘 方面 有 标准 化 成 果 吗 ? ”最 近 ，Microsoft 提出 了 一 种 数据 挖掘 语言 ， 
数据 挖掘 语言 原 语 标准 





Meo，Psaila 和 Ceri 提出 
Tsur, Ullman, 
明和 测试 规则 。 


























可 能 产生 大 量规 则 ，MSQL 提供 了 象 








你 作 数 据 控 





的 努力 。 有 了 标准 


的 数据 挖掘 




















于 发， 有 利于 数据 挖掘 结果 


DM OLE DB 与 OLE DB，0LAP OLE DB 一 起 组 成 Microsoft 迈 向 数据 库 、 数 据 仓库 和 数据 挖掘 标 
准 化 的 三 个 重要 步骤 。DM 0LE DB 涵盖 了 若干 重要 的 数据 控 据 模块 的 创建 和 使 用 ， 包 括 关 联 、 预 测 





书 的 数据 挖掘 语言 。 











建 模 (分 类 和 预测 ) 和 聚 类 。 由 于 在 本 书 H 






































技术 解决 商务 问题 的 需要 。CRISP-DM 是 一 个 国际 项 











和 用 户 公司 一 道 工作 ， 骨 禾 























提供 有 效 的 数据 挖掘 平 








ey: 
， 上 七 未 

















业 部 门 广泛 可 用 的 数据 挖掘 处 理 。 它 强调 〈1) 由 商 
解数 据 ，〈3) 识别 和 解决 数据 中 的 
日 和 管理 数据 挖掘 结 

















挖掘 结果 ， (6) 








使 月 








受益 。 该 项 目 提供 了 一 个 实现 数据 挖 扩 









































必 的 处 得 


问题 ， (4) 应 


果 ， 




















人 
口 






































映射 ， 




















认 在 不 同 的 产 
(2) 捕获 和 理 








版 时 DM OLE DB 还 未 完成 ， 我 们 只 好 选择 DMQL 作为 本 
一 个 关于 DM OLE DB 的 简要 介绍 在 附录 A 中 。 

CRISP-DM (Cross-Industry Standard Process for Data Min 
是 另 一 项 关于 数据 挖掘 标准 化 的 成 果 


小 。 


ing) (Lttp://www. crisp-din. org/) 
它 抛 开 对 技术 的 关注 ， 强 调 所 有 层次 的 用 户 在 使 用 数据 挖掘 
中 了 一 些 数 据 仓 库 公 司 、 数 据 挖 气 公 司 
和 处 理 结构 。 该 项 目 要 定义 和 确 
务 问 题 到 数据 挖掘 问题 的 里 
数据 挖掘 技术 ，〈5) 在 商务 环境 下 解释 数据 
(7) 收集 和 交换 专家 意见 ， 确 保 今 后 的 项 目 能 由 经 验 
结构 和 数据 挖掘 项 目 可 能 出 现 的 潜在 问题 指南 。 


















































































































































































































































随 着 数据 挖掘 系统 的 进一步 开发 和 数据 挖掘 语言 的 标准 化 ， 可 以 预料 ， 本 书 再 版 时 使 用 的 数据 
挖掘 语 言 将 朝 着 类 似 于 DM OLE DB 的 原 语 进化 ， 或 最 终 被 更 完整 的 标准 数据 挖掘 语言 历 取代 ， 不 管 
这 种 语言 那 时 叫 什么 。 

4.3 ”基于 数据 挖掘 查询 语言 设计 图 形 用 户 界 面 

数据 挖掘 查询 语言 提供 了 必要 的 原 语 ， 允 许 用 户 与 数据 挖掘 系统 通讯 。 然 而 ， 没 有 经 验 的 用 户 
可 能 发 现 数据 挖掘 查询 语言 很 难 使 用 ， 并 且 语 法 太 难 记 。 用 户 可 能 更 愿意 与 图 形 用 户 界 面 〈GUI) 
通讯 。 对 于 关系 数据 库 技 术 ，SQL 充当 关系 系统 标准 的 “核心 ”语言 ， 通 过 它 很 容易 设计 GUI。 类 
似 地 ， 数 据 挖掘 查询 语言 可 以 充当 数据 挖掘 系统 实现 的 “核心 语言 ”， 为 有 效 的 数据 挖掘 系统 GUI 

















的 开发 提供 基础 。 





数据 挖掘 GUI 可 能 包含 以 下 成 分 : 


似 于 关系 查询 说 明 所 用 的 GUI。 








视 化 技术 。 





数据 的 分 析 ) 说 明 。 此 外 ， 
动 地 对 概念 分 层 进行 调整 。 





交互 的 多 层 挖 据 ; 


数据 收集 和 数据 查询 编辑 : 该 间 


该 成 分 


其 它 各 种 信息 : 这 部 分 可 能 包含 联机 


数据 挖掘 原 语 的 操作 : 该 成 分 允许 动态 地 调 
可 能 允许 修改 先前 的 数据 挖掘 查询 或 条 件 。 


该 成 分 应 当 允 许 在 发 现 的 模式 上 进行 上 卷 、 下 钻 操 作 。 
帮助 手册 、 索 引 查找 、 








分 允许 用 户 说 明 任 务 相关 的 数据 集 ， 编 写 数 据 挖 








据 查 询 。 




















发 现 模式 的 表示 : 该 成 分 允许 以 各 种 形式 显示 发 现 的 模式 ， 包 括 表 、 图 、 


分 层 结构 说 明和 操纵 : 该 成 分 允许 说 明 概念 分 层 ， 或 者 | 
还 应 当 人 允许 月 








整数 据 挖掘 








AI 





图 形 用 户 界 面 的 设计 还 应 





考虑 数据 挖 气 系 统 的 不 同类 型 用 户 。 














可 以 分 成 两 类 : 商务 分 析 者 和 


中 








商务 执行 


者 。 











设 定 挖掘 参数 和 调 


El 























一 个 恨 好 设计 的 数据 挖掘 


“数据 挖掘 碍 
将 有 也 


4 


写 中 。 


























标准 
特定 点 ， 

















整 挖 据 过 程 方 面 其 





天 


有 





商务 分 析 者 希望 


昌 户 修改 概 ; 























图 表 、 曲 线 或 其 它 可 




















用 户 手动 地 ， 或 者 自动 地 【基于 手头 
念 分 层 ， 或 根据 给 定 的 数据 分 布 ， 


















































闵 值 ， 选 择 、 显 示 和 修改 概念 分 层 。 它 








调试 和 其 它 交 互 图 形 机 制 。 


一 般 地 ， 数 据 挖 掘 系 统 的 用 户 
在 选择 数据 的 不 同 部 分 、 操 纵 维和 层 、 






































活性 和 方便 性 。 为 二 方面 ， 商务 执行 者 需要 清太 
解释 数据 挖掘 结果 、 灵 活 地 观察 和 比较 不 同 的 数据 挖掘 结果 、 
系统 应 当 为 这 


询 语言 可 以 进化 ， 形 成 设计 数据 挖掘 GUI 
| 于 数据 挖掘 软件 的 开发 和 系统 通讯 。 然 而 ， 一 些 GUI 原 语 ， 如 指向 曲线 或 图 











两 类 用 户 提 供 











楚 地 提供 
容易 地 将 数据 挖 据 结 果 集 成 到 报 


友好 的 用 户 界 面 。 
的 标准 吗 ? ” 女 









































I 果 这 种 进化 是 可 能 的 ， 
形 中 的 一 个 















































Eb Ni 
能 演变 ， 





4.4 数据 挖掘 系统 的 结构 
数据 挖掘 








随 弟 出 的 流 














尽管 丰富 和 强大 的 数据 挖 气功 能 形成 了 数据 挖 扣 
统 的 结构 和 设计 是 至 关 重要 的 。 一 个 好 的 系 允 











口 二 








时 间 能 够 告诉 








pr 








万 





行 和 扩散 ， 可 以 预料 : 在 未 来 的 几 年 中 ,将 会 设计 和 开发 各 种 数据 挖 





很 难 使 用 象 DMQL 这 样 的 基于 文本 数据 挖掘 查询 语言 来 说 明 。 标 准 化 的 基于 GUI 的 语言 
并 取代 类 SQL 的 数据 挖掘 语言 。 只 


我 们 。 








时 系统 。 











系统 的 核心 ， 




















象 大 部 分 软件 系统 一 样 ， 数 据 挖 掘 系 











结构 将 有 利于 系统 更 好 地 利用 软件 环境 , 有 利于 有 效 、 











及 时 地 完成 数据 挖 扣 
求 ， 并 随时 间 进 化 。 


加 任务 ， 有 





“数据 挖掘 系统 的 期 望 结 构 是 什么 ?” ”数据 库 和 信息 产业 界 丰 
海量 数据 和 信息 已 经 存 


统 和 数据 仓库 系统 已 经 成 为 主流 信息 











利于 与 其 它 信 





系统 。 








外 , 全 面 的 信息 处 理 和 数据 分 析 基 而 





已 经 或 将 持 纪 


县 系统 协 j 


周 和 交 


换 信 息 ， 有 利于 系统 适应 用 户 的 种 种 需 




















卖 不 断 地 、 系 统 地 围 绢 





究 和 开发 历经 数 十 年 ， 数 据 库 系 
储 和 /或 集成 在 这 些 系统 中 。 此 
绕 数 据 库 系 统 和 数据 仓库 构造 。 

















这 包括 多 个 异种 数 
告 和 OLAP 分 析 工 具 。 
在 这 种 情况 下 ， 数 据 挖 



































据 库 的 访问 、 集 成 、 


统 











些 问题 ， 我 们 需要 考察 耘 合 
下 耦 合 模式 可 以 将 DM 系统 与 
们 逐一 考察 它们 。 


不 耦合 : 
统 ) 提取 数据 ， 使 用 某 些 
这 种 系统 尽管 简单 ， 
很 大 的 灵活 性 和 有 效 性 。 不 
数据 。 在 DB 和 /或 DW 系统 ， 


关 的 、 高 质量 的 数据 成 为 一 





























市 四 
| 入 








由 数 









































及 





合 或 外 


区 





DB/DW 系统 外 








据 挖 掘 算 法 处 到 
但 有 不 少 缺 点 。 首 先 ，DB 系统 在 存储 、 
日 DB/DW 系统 ，DM 系统 
数据 多 半 被 很 好 地 组 织 、 
F 容 易 的 任务 。 其 次 ， 在 DB 或 DW 系统 中 ， 有 许多 被 测 








化 


时 系统 设计 的 一 个 重要 问题 是 : 
数据 库 〈DB) 系统 和 /或 数据 仓库 〈DW) 系统 耦合 或 集成 ? 如 
成 DM 系统 和 DB/DW 系统 的 可 
成 : 不 耦合 、 松 散 耦 合 


As 





一 和 转换 ，0DBC/0LE DB 连接 ，Web 访问 和 服务 机 种 


我 们 是 
果 应 


oe 




















不 耦合 意味 DM 系统 不 利用 DB 或 DW 系统 的 任何 功能 。 它 
数据 ， 然后 再 将 撑 气 结果 存放 到 
访问 和 处 理 数 据 方面 提供 





如 
AAA 





组 乡 


怎样 正确 
基于 不 同 的 结构 设计 ， 用 以 
、 半 紧密 看 


可 能 由 特定 的 源 ( 妇 





EC 一 局 


报 


>» 





轴 DM》 系统 与 
地 进行 ? 为 回答 这 


























合 和 紧密 耦合 。 证 我 





1， 文 件 系 
另 一 个 文件 中 。 








了 








可 能 要 花 大 量 
: 





的 时 间 查 





找 、 收 集 、 清 理 和 转换 








索引 、 清 理 、 




















的 算法 和 数据 结构 。 使 用 这 利 

















系统 开发 有 





已 经 或 将 
很 难 将 这 种 系统 集成 到 信 ， 


松散 耦合 
数据 ， 进 行 
位 置 。 
松散 耦合 比 不 耦合 好 ， 
仓库 中 数据 的 任意 部 分 





























数据 控 





















































化 


a 





半 紧 密 耦 合 : 半 紧 密 耦 合 
语 (通过 分 析 频 繁 过 
索引 、 聚 集 、 直 方 图 
关 等 ) 的 预计 算 。 此 外 ， 


些 中 间 挖掘 结果 或 者 


紧密 耦合 : 基 密 耦合 意 
的 一 个 成 分 。 数 据 挖掘 查 ; 















































味 





处 理 方法 优化 。 随 着 技术 进步 ， DM、DB 和 DW 将 进化 和 集成 在 一 起 ， 成 为 








。 这 带 来 了 这 些 
系统 是 基于 内 存 的 。 由 于 挖掘 本 身 不 使 用 DB 或 Di 提供 
， 松 散 耦 合 系统 很 难 获得 可 规模 性 和 良好 的 性 能 


DM 系统 连接 到 一 个 DB/DW 系统 之 外 ， 一 上 
定 ) 可 以 在 DB/DW 系统 中 实现 。 
分 析 、 多 路 连接 和 一 些 基本 的 统计 度量 (如 ， 求 和 、 计 数 、 最 大 、 最 小 、 
的 中 间 结 果 也 可 以 预计 算 ， 
大 计算 ， 或 者 可 以 有 效 地 计算 ， 这 种 设计 将 提高 DM 系统 的 怕 


地 集成 到 DB/DW 系统 中 。 数 据 挖掘 子 系统 被 视 为 信息 
查询 分 析 、 数 据 结 构 、 索 引 模 式 和 查询 


到 的 数据 挖掘 功 和 外 


一 些 频繁 使 








意味 除了 将 














已 大 
有 全 


效 的 、 
要 存放 在 DB/DW 系统 中 。 不 与 这 些 系 统 耘 合 


集成 或 统 


可 规模 化 的 实现 是 切实 可 行 





使 得 找 出 任务 相 
试 的、 可 规模 化 
外， 大 部 分 数据 


Ea 


出 








的 。 























，DM 系统 就 需要 使 用 





息 处 理 环境 。 这 样 ， 不 耦合 
: 松散 耦合 意味 DM 系统 将 使 用 DB 或 DW 的 某 些 机 制 ， 从 这 些 系统 管理 





是 











种 很 粮 糕 的 设计 。 


其 它 工 


提取 数据 ， 使 得 











的 数据 存储 提取 











轴 ， 然 后 将 挖掘 的 结果 或 者 存放 到 文件 ， 


因为 它 可 以 使 用 查询 处 理 、 






































DM 系统 平滑 ] 








个 
高 度 期 望 的 ， 
处 理 环境 。 


系统 。 这 将 提供 
这 种 方法 是 


现 集成 的 信息 





Wn 


和 








J 

















致 的 信息 


处 理 环 境 。 








有 和 功能 根据 DB 或 DW 系统 的 挖掘 





因 











也 比 不 耦合 好 ， 


因为 它 可 以 使 有 

















易 事 ， 在 此 领域 需要 更 多 的 下 








究 。 半 紧密 天 


为 它 有 利于 数据 挖 折 


有 了 这 些 分 析 ， 可 以 看 出 数据 挖掘 系统 应 当 与 一 个 DB/DW 系统 耦合 
日 DBZDW 的 数据 和 系统 机 舍 


日 图 
出 合 是 














索引 




















这 些 有 





并 存放 在 














上 











山 


E DB/DW 系统 


， 或 者 存放 到 数据 库 或 数据 仓库 的 指定 








和 其 它 机 制 ， 提 取 存 放 在 数据 库 或 数据 
“系统 提供 的 灵活 性 、 有 效 性 等 优点 。 然 而 ， 许 多 松散 耦合 的 
的 数据 结构 和 查询 优化 方法 ， 对 于 大 的 数据 














些 基本 数据 挖 和 
排序 


时 原 














泉 语 可 能 包 提 

















标准 
于 这 

















Ho 











站 台 已 


上 月 5 。 





系统 























E 功 和 

















| 。 
松散 和 紧密 耦 








数据 挖掘 原 语 ， 提 供 这 些 原 语 在 DB/DW 系统 中 的 有 效 实现 。 





























4.5 总 结 

”我们 研究 了 在 数据 挖掘 查询 形式 下 ， 说 明 数 据 挖 捉 
数据 〈 即 ， 要 挖掘 的 数据 集 ) 、 型 〈《 即 ， 
背景 知识 〈 通 通常 ， 以 概念 念 分 层 形式 表示 



































了 效 实现 ， 有 利于 提高 系统 性 能 ， 


。 松 散 耦合 尽管 不 太 有 
紧密 耦合 是 高 度 期 望 的 ， 但 
合 之 间 的 折衷 。 重 要 的 是 识别 常用 的 


个 具有 多 种 功能 的 信息 














有 利 





效 ， 
并 非 























实现 














任务 的 五 种 原 语 。 








特征 、 区 分 、 


这 些 原 语 说 明 任务 相关 的 


关联 、 分 类 和 预测 ) 


兴趣 度 度量 、 发 现 模式 的 知识 表示 和 可 视 化 形式 。 











































































































































































































































































































































































































































































































四 ”在 定义 任务 相关 数据 时 ， 用 户 说 明 包 含 被 挖掘 数据 的 数据 库 和 表 《或 数据 仓库 和 数据 方 ) 、 选 
择 数据 和 分 组 的 条 件 、 挖 掘 时 要 考虑 的 属性 〈 或 维 ) 。 

上 ”概念 分 层 提供 了 有 用 的 背景 知识 ， 有 利于 使 用 简明 的 高 层 术语 表达 发 现 模 式 ， 并 有 助 于 多 个 抽 
象 层 的 知识 挖掘 。 

四 ”模式 兴趣 度 的 度量 评估 发 现 模 式 的 简洁 性 、 确 定性 、 实 用 性 和 新 颖 性 。 这 些 度量 能 够 帮助 减少 
返回 用 户 的 不 感 兴趣 的 模式 数量 。 

加 ”用户 应 当 能 够 说 明显 示 发 现 模式 的 期 望 形 式 ， 如 规则 、 表 、 图 表 、 判 定 树 、 方 、 图 或 报告 。 上 
卷 和 下 外 操作 也 应 当 能 够 用 于 多 个 抽象 层 的 模式 观察 。 

加 可 以 设计 数据 挖掘 查询 语言 ， 支 持 特 定 的 和 交互 的 数据 挖掘。 数据 挖掘 语言 (如 DMQL) 应 当 为 
说 明 数 据 挖 掘 原 语 ， 产 生 和 操纵 概念 分 层 提供 命令 。 这 样 的 查询 语言 是 基于 SQL 的 ， 并 可 能 最 
终 形成 标准 ， 成 为 数据 挖掘 图 形 用 户 界面 的 基础 。 

上 ”数据 挖掘 系统 结构 包括 将 数据 挖掘 系统 与 数据 库 / 数 据 仓库 系统 偶合 的 各 种 考虑 。 有 多 种 可 能 
的 设计 : 不 耦合 、 松 散 耦 合 、 半 紧密 耦合 和 紧密 偶合 。 一 个 良好 设计 的 数据 挖掘 系统 应 当 提 供 
与 数据 库 和 /或 数据 仓库 的 紧密 或 半 紧 密 耦合 。 

习题 

4.1 列 出 和 描述 说 明 数 据 挖 据 任务 的 五 种 原 语 。 

4.2 说 明 为 什么 概念 分 层 在 数据 挖掘 中 是 有 用 的 . 

4.3 概念 分 层 的 四 种 类 型 是 : 模式 分 层 、 集 合 分 组 分 层 、 操 作 导 出 的 分 层 和 基于 规则 的 分 层 。 
(a) ”简略 定义 每 种 类 型 的 分 层 。 
(b) ”对 于 每 种 类 型 的 分 层 ， 给 出 一 个 不 在 本 章 中 的 例子 。 

4.4 假定 Big-University 的 大 学 课程 数据 库 包 含 下 列 属性 :每 个 学 生 的 name，address，status( 本 
科 生 或 研究 生 ) ，wmajjor 和 CP4 (累计 平均 等 级 ) 。 
(a)” 对 属性 status，major，0GCP4 和 address 提出 一 个 概念 分 层 。 
(pb) “对 于 你 上 面 提出 的 每 个 概念 分 层 ， 你 提出 的 概念 分 层 结构 的 类 型 是 什么 ? 
(c) ”使 用 DMQL 语法 定义 每 个 概念 分 层 。 
(d) ” 写 一 个 DMQL 查询 ， 找 出 GPA 为 优秀 的 学 生 的 特征 。 
(e)” 写 一 个 DMQL 查询 ， 比 较 科 学 和 艺术 专业 的 学 生 。 
(f) 写 一 个 DMQL 查询 ， 找 出 任课 教师 、 学 生成 绩 和 你 选择 的 其 它 属性 之 间 的 关联 规则 。 使 用 元 

规则 说 明 你 想 要 找 的 关联 规则 形式 。 为 列 出 的 关联 规则 指定 最 小 置信 和 度 和 支持 度 阔 值 。 

(g) 写 一 个 DMQL 查询 ， 根 据 学 生 的 GPA 和 任课 教师 预测 “计算 机 科学 101” 课 程 的 学 生成 绩 。 

4.5 考虑 下 面 的 由 Big-University 的 学 生 数 据 库 挖掘 的 关联 规则 (4. 8) : 









































major(% ”science’) SS status(h ”undergrad’) 


假定 学 校 的 学 生 人 数 ( 





即 ， 任 务 相关 的 元 组 数 ) 为 5000， 其 ， 














64% 的 学 生 注册 本 科学 位 课程 ，70% 的 学 生 主 修 科 学 。 











(a) 计算 规则 (4. 8) 的 支持 度 和 置信 度 。 
(b) 考虑 下 面 的 规则 (4. 9) : 




















major(% ”biology’) SS status(h ”undergrad’) 


(4. 8) 


56% 的 在 校本 科 生 的 专业 是 科学 ， 


[17%, 80%] 
(4. 9) 


假定 主攻 科学 的 学 生 30% 专 业 为 Bio7ogy。 与 规则 (4. 8) 对 比 ， 你 认为 规则 (4. 9) 新 笑 吗 ? 解 


释 你 的 结论 。 





4.6 《Mine _ Knowledge _ Specification> 语 名 可 以 月 
时 提出 一 个 语法 定义 。 

下 面 的 练习 涉及 定义 概念 分 层 的 DMQL 语法 。 
型 地 ， 对 


为 聚 类 的 控 


4.7 














p4 








(b) 概念 分 


Supplier, | 


supplier(name, 


为 1tem hierachy 提 日 


那样 。) 


(c) 对 集合 分 组 分 层 使 月 
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A 


层 


























模式 分 层 。 


(d) 作为 例 4. 15 中 集合 分 组 分 层 的 一 种 替 
。 为 age 的 这 种 分 
(e) 概念 分 层 可 以 根据 一 个 规则 集合 定义 。 给 出 DMQL 语法 ， 根 据 利 让 

AllElectronics 的 7tems 定 义 基 了 


十 论 建 立 标准 化 的 数据 控 和 


出 的 分 层 


4.8 





i 


么 ? 列举 一 些 该 领域 的 最 近 提议 。 


述 如 下 将 数据 挖掘 系统 与 数据 库 或 数据 仓库 系统 集成 的 结构 之 间 的 差别 ， 不 辜 合 、 松 散 末 
紧密 辜 合 和 紧密 入 











4.9 














人 
| un i 





文献 注释 


三 





[于 模式 date(day,， month, quarter, yean), 
分 层 。 使 用 DMQL 提供 该 概念 分 
义 可 能 设计 多 个 关系 。 例 如 ，jtem hierachy 可 以 涉及 1 
如 下 模式 定义 : 


item(item 1D, branch, 


日 DMQL 语法 ， 通 过 添加 概念 层 continent， 精 炼 例 4. 14 











于 挖 抉 特征 、 





区 分 、 关 联 、 分 类 和 预测 规则 。 








数据 挖掘 系统 有 一 个 预定 义 的 概 








慨 的 定义 。 





页 个 关系 item 和 


type, place made, supplier) 


type, headquarter location, owner, siZze, assets, revenue,) 


H DMQL 定义 。 





(提示 : 你 可 以 使 有 





日 where 结构 和 ” ”记号 ， 如 在 SQL 中 











Pp Zocation 的 
































代 , 用 户 可 能 希望 根据 数据 聚 类 例 程 定义 一 个 操作 导 
HH DMQL 语法 。 例 如 ， 根 据 5 个 聚 类 


三 条 从 。 











己 担 . 吕 
到 a 














由， 为 例 4.6 ! 























规则 的 分 层 。 
时 查询 语言 的 重要 性 。 涉 及 这 一 任务 的 一 些 潜在 好 处 和 挑战 是 什 
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可 





合 。 陈 述 你 认为 哪 种 结构 最 流行 ， 为 什么 ? 
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别 见 余 多 层 关 有 
SG92, AIS93a, 
MPSM96，ST96， 





发 现 扣 



































Mitbander 和 Zan 


的 兴趣 度 客 观 
的 关联 规则 的 置信 度 
类 规则 | 





Pra 十 


此 





度量 已 在 
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文献 中 提出 。 简 洁 性 度量 在 Michalski [Mic83] 中 给 出 。 本 章 介 



































中 讨论 。 
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iolo[SOMZ96] 和 





月 





日 模 板 和 谓词 限 匀 


关系 数据 库 系 统 成 功 的 一 个 习 
动 ， 如 关于 SQL-3 等 的 了 


品 化 的 
的 努力 。DM 0LED 





Standard Process for Data Min 
成 果 。 然 而 ， 它 抛 
许多 为 数据 挖掘 


过 





数据 挖掘 的 书籍， 


前 ， 已 被 [AK93， 


和 文 持 度 度 晤 
Srikant 和 Agrawal [SA95, SA96] 提 出 。 其 它 客 观 兴 趣 度 度 量 在 [HM91，PS91lab， 
MM95，CHY96，Ka96] 中 。 兴趣 度 的 了 
LHC97] 
DMQL 数据 挖掘 语言 由 Han，Hu 和 Wang 等 提出 [HFW+96a] ， 用 了 
上 板 (Discovery Boa 
面 原型 提出 ， 它 涉及 数据 挖 
MSQL 由 Imielinski 和 Vermani[IV99] 提 出 。MINE RU 
Meo, Psaila 和 Ceri[MPC96] 提 出 ， 并 被 Baralis 和 Psa 
Datalog 语 法 [RG00]， 并 
有 元 规则 的 挖掘 在 Kle 


rd) 
四 查询 说 


于 查询 群 的 概念 | 
ettinen, Mannila,，Ronkainen 等 [KMR+94]，Fu 和 Han[FH95]，Shen, 0 
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上 
里 


Agrawal, Imielinski 和 Swami [AIS93a] 提 出 。 我 们 介绍 的 识 

















FE 观 度量 考虑 用 户 对 于 数据 联系 的 确信 ,在 [PSM94， 








F DBMiner 数据 挖掘 系统 。 
Imielinski, Virmani 和 Abdulghani [IVA96] 作 为 应 用 
明和 规则 提取 的 基于 SQL 的 操作 。 其 相关 的 数据 挖掘 查 
LE， 一 种 挖掘 单 维 关联 规则 的 
ila[BP97] 扩 展 。 一 种 关联 规 贝 


[lman，Abitboul，Clifton 等 







































































操作 
| 产生 语言 使 用 
[TUA+98] 提 



































二 | 





Tsur, U 











LC 
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ng, 
它 想法 涉及 在 挖掘 中 使 























Kamber, Han 和 Chiang[KHC97]: 





述 。 























DT93，LHC97，ST96，SVA97，NLHP98] 讨 论 。 








BT 


要 因素 [SH98] 是 关系 数据 库 语言 SQL 的 标准 






































[ 作 进 
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B 的 数据 挖 扩 





步 
E 要 性 。 通 过 提出 数据 挖 捉 


Et 
pp 
有 


图 原 语 的 简介 可 


人 化。 最近 的 标准 化 活 
表明 具有 一 个 标准 的 数据 库 语 言 对 于 数据 库 系 统 的 成 功 实现 和 商 
CDM) OLEDB[Mic00]，Microsoft 公司 已 经 做 出 数据 挖掘 标准 化 
以 在 本 书 的 附录 A 中 找到 。CRISP-DM (Cross-Industry 












































下 对 技术 的 关注 
于 发 的 区 
如 Westpha 























| 和 


ing) 


形 用 户 界面 和 可 视 化 工具 ， 可 以 在 各 种 数据 控 


(ttp:AH crisp-Am. ors[) 是 涉及 数据 挖掘 标准 化 的 又 一 
周 所 有 层次 的 用 户 在 使 用 数据 挖掘 技术 解决 商务 问题 的 需要 。 
时 产品 中 找到 。 一 些 
Blaxton 的 Data Mining Solution[WB98]， 给 出 了 一 些 很 好 的 例 





,DY 

















子 和 可 视 快 照 。 可 视 化 技术 的 综述 参见 Keim[Kei97] 的 Visual Technigques for Exploring 


Databases。 


数据 挖 








加 系统 的 结构 已 被 许多 研究 者 在 会 议 的 小 组 讨论 和 大 会 ] 
计 〈 如 [Mic00]) ， 联 机 分 析 挖 据 〈 如 
LNHP99] ) 可 以 看 作 迈 
Thomas 和 Agrawal 提 蝇 


关系 或 对 象 -关系 系统 














[Han98] ) 和 数据 挖掘 查 
与 数据 库 系 统 和 数据 仓库 系统 紧密 集成 的 步骤 。Sarawagi， 
的 一 些 数据 挖掘 原 语 [STA98]， 如 KWayJ 
日 于 这 些 数 据 库 系统 












































讨论。 数据 挖掘 语言 的 最 近 设 
究 (如 [NLHP98，STA98,， 


Prune 等 ， 也 可 以 用 作 
据 挖掘 的 有 效 实现 。 


第 五 章 概念 描述 : 








从 数据 分 析 的 角度 ， 数 据 挖掘 可 以 分 为 两 类 ; 























挖掘 以 简洁 概要 的 方式 描述 数据 ， 并 提供 
一 个 或 一 组 模型 ， 并 试图 预测 新 数据 集 的 行为 。 






































特征 与 比较 





述 式 数据 挖 


数据 的 有 趣 的 一 般 性 质 。 





数据 库 通常 存放 大 量 的 细节 数据 。 


然而 ， 用 户 通 常 














这 种 数据 描述 可 以 提供 
不 同 的 粒度 和 从 不 同 的 角度 描述 数据 集 。 
重要 部 分 。 

本 章 ， 你 将 学 习 概 念 


什么 是 概念 描 
描述 性 数据 挖 

















述 如 何 有 效 地 进行 。 

















5.1 





类 型 是 























时 的 最 简 征 














希望 以 简洁 


概念 描述 。 概 念 通常 指数 据 的 汇集 ， 





ee 等 
的 特征 和 比较 。 当 被 描述 的 概念 涉及 对 象 类 时 ， 
0 ， 而 概念 或 类 的 比较 (也 和 

概念 描述 涉及 特征 和 比较 ， 我 们 将 逐一 研究 这 
















































































的 《而 不 是 在 较 低 的 ) 抽象 层 描 述 数据 是 很 有 























作为 一 种 数据 挖掘 任务 ， 概 念 


称 为 区 分 )》 提 人 
些 任务 的 实现 技术 。 
概念 描述 与 数据 泛 化 密切 相关 。 给 定 存放 在 数据 库 中 的 大 量 数 据 ， 能 
的 。 人 允许 数据 集 在 多 个 振 

















唱和 预测 式 数据 挖掘。 


述 不 是 数据 的 简 8 











描述 式 数据 
分 析 数 据 ， 建 立 





























预测 式 数据 挖掘 
吉 的 描述 形式 观察 汇总 的 数据 集 。 





一 类 数据 的 概貌 ， 或 将 它 与 对 比 类 相 区 别 。 此 外 ， 用 户 希 望 方 便 、 灵 活 地 以 
这 种 描述 性 数据 挖掘 称 为 概念 描述 ， 











它 是 数据 挖掘 的 一 个 











如 frequent_buyers, 
枚 举 。 概 念 描述 产生 数据 





























有 时 


也 称 概 念 




















两 个 或 多 个 数据 汇集 的 比较 





述 为 类 描述 。 特 征 提供 给 定数 
述 。 由 于 












































够 以 简洁 的 形式 在 更 一 般 
象 层 泛 化 ， 便 于 用 户 考 察 





























数据 的 一 般 行 为 。 例 如 ， 给 定 AllElectronics 数据 库 ， 
意 观 察 泛 化 到 高 层 的 数据 。 如 ， 
入 。 这 种 多 维 、 
第 2 章 讨论 的 数据 仓库 的 联机 分 析 处 理 

“大 型 数据 库 的 概念 






































COLAP )。 
































述 和 数据 仓库 的 联机 分 析 处 到 





复杂 的 数据 类 型 和 聚集 数据 仓库 和 OLAP 工具 基于 多 维 数据 模型 
) 和 度量 《聚集 函数 ) 组 成 。 然而 ， 罗 于 这 此 大 久 的 大 部 分 丙 吕 化 呈 术 
是 非 数 值 
te a 相反 ， 对 于 概念 形成 ， 数 据 库 属性 可 
空间 的 、 | 











由 维 
数据 类 
系统 9 
以 是 各 种 各 样 的 数据 类 型 ， 包 括 数值 的 、 





(或 重 性 


属性 


型 都 是 很 有 限 的 ,许多 当前 的 OLAP 系统 限 种 





















































非 数 值 





的 、 








销售 经 理 可 外 
民 据 地 区 按 顾 客 的 分 组 汇总 ， 
多 层 数据 泛 化 类 似 于 数据 仓库 中 的 多 维 数 据 分 析 。 在 这 种 意义 下 ， 概 念 











观察 每 组 顾客 


不 想 考 察 每 个 顾客 的 事务 ， 而 愿 
的 购买 频率 和 顾客 的 收 
述 类 似 于 




































































有 何不 同 ? ”二 者 : 


间 的 主要 差别 如 下 : 


， 将 数据 看 作 数据 方形 式 ， 
维和 度量 的 























| 维 必 

















数据 ?了 ,类 似 地 ,在 当前 的 OLAP 



































性 的 聚集 也 可 能 包括 复杂 的 数据 类 型 ， 如 3 
的 集成 ， 和 对 象 指针 分 组 等 。 这 样 ， 由 于 可 外 


FE 数值 
的 维 


























数据 的 
和 度量 类 型 的 限于 


华人 


上 口 » 



































数据 分 析 模 型 。 需 要 时 ， 数 据 库 中 的 概念 

























































































述 可 以 处 到 
用 户 控制 与 自动 处 理 : 数据 仓库 中 的 联机 分 析 处 理 





里 具 


一 
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空间 


复杂 数据 类 型 


纯 是 用 户 控制 的 过 








象 的 。 此 外 ， 数 据 库 中 属 
区 域 的 合并 ， 图 多 ， 文 本 
|，OLAP 只 表现 为 一 种 简单 的 

的 属性 和 它们 的 聚集 。 


旦 。 维 的 选择 和 诸如 下 钻 、 
































































































































上 卷 、 切 块 和 切片 等 OLAP 操作 的 使 用 都 由 用 户 指挥 和 控制 。 尽 管 在 大 部 分 OLAP 系统 中 ， 用 户 控 
制 的 界面 是 相当 友好 的 ， 但 用 户 确实 需要 对 每 个 维 的 作用 有 透彻 的 理解 。 此 外 ， 为 了 找到 一 个 满意 
的 描述 ， 用 户 需 要 使 用 一 长 串 OLAP 操作 。 相 反 ， 数 据 挖掘 系统 中 的 概念 描述 努力 成 为 更 自动 化 的 
过 程 ， 帮 助 用 户 确定 哪些 维 〈 或 属性 ) 应 当 包 含 在 分 析 中 ， 给 定 的 数据 应 当 泛 化 到 什么 程度 ， 以 便 
产生 有 趣 的 数据 汇总 。 

正如 第 2 章 所 讨论 的 ， 最 近 ， 数据 仓库 和 OLAP 技术 正在 朝 着 处 理 更 复杂 的 数据 类 型 和 机 入 更 
多 的 知识 发 现 机 制 方向 进化 。 随 着 技术 的 进一步 发 展 ， 预 期 更 多 的 描述 性 数据 挖掘 功能 将 集成 到 未 
来 的 OLAP 系统 中 。 

本 章 ， 你 将 学 习 概 念 描述 的 方法 ， 包 括 多 层 泛 化 、 汇 总 、 特 征 和 比较 。 这 些 方法 形成 实现 数据 



































挖掘 的 两 个 主要 功能 模块 的 基础 : 多 























， 注意 ， 在 第 3 章 中 ， 我 们 介绍 了 概念 分 层 可 以 由 数值 数据 























动产 生 ， 形 成 数值 
































最 近 研 究 成 果 ， 在 大 多 数 商品 化 系统 中 还 未 使 用 。 





Panel 

















屋 特 征 和 比较 。 此 外 ， 你 还 将 考察 以 多 种 形式 表示 概念 描述 的 








维 。 然 而 ， 这 一 特点 是 数据 挖掘 的 




















技术 ， 包 括 表 、 图 表 、 图 和 规则 。 


























数据 库 中 的 数据 和 对 象 通常 包含 原始 概念 层 的 细节 信息 。 例 如 ，sales 数据 库 中 的 item 关系 可 

能 包含 描述 商品 的 低层 信息 ， 如 item_ID, name, brand, category, supplier, place_made 和 price。 能 够 
对 大 的 数据 集 合 进 行 汇总 并 在 高 层 概念 提供 结果 是 有 用 的 。 例 如 ， 圣 诞 节 期 间 销售 的 大 量 商 品 的 汇 
总 提供 这 些 数据 的 一 般 描 述 ， 对 于 销售 和 市 场 经 理 都 是 非常 有 帮助 的 。 这 要 求 一 个 重要 的 数据 挖掘 
功能 : 数据 泛 化 。 
数据 泛 化 是 一 个 过 程 ， 它 将 大 的 、 任 务 相关 的 数据 集 从 较 低 的 概念 层 抽象 到 较 高 的 概念 层 。 大 

的 数据 集 有 效 的 、 灵 活 的 泛 化 方法 可 以 分 为 两 类 : (1) 数据 方 (或 OLAP) 方法 ， 和 (2) 面向 属性 
归纳 方法 。 数 据 方 方 法 已 在 第 2 章 介绍 。 本 节 ， 我 们 介绍 面向 属性 的 归纳 方法 。 
























































































































































5.2.1 面向 属性 归纳 








对 于 数据 泛 化 和 基于 汇总 的 特征 ， 面 向 属性 的 归纳 于 1989 年 首次 提出 ， 比 数据 方 方 法 的 提出 
早 几 年 。 数 据 方 方 法 可 以 认为 是 基于 数据 仓库 的 、 面 向 预计 算 的 、 物 化 视图 的 方法 。 它 在 OLAP 或 
数据 挖掘 查询 提交 处 理 之 前 ， 脱 机 计算 聚集 。 另 一 方面 ， 面 向 属性 的 归纳 ， 至 少 在 它 被 提出 时 ， 是 
面向 关系 数据 库 查 询 、 基 于 泛 化 的 、 联 机 的 数据 分 析 处 理 技术 。 然 而 ， 根 据 联 机 聚集 和 脱 机 预计 算 
区 分 两 种 方法 并 非 是 固有 的 。 数 据 方 中 有 些 聚 集 也 可 以 联机 计算 ， 而 多 维 空间 的 脱 机 预计 算 也 可 以 
加 快 面向 属性 的 归纳 速度 。 

让 我 们 先 介绍 面向 属性 的 归纳 方法 。 然后 ， 我 们 将 讨论 该 方法 的 细节 ， 它 的 变形 和 扩充 。 

面向 属性 归纳 的 基本 思想 是 : 首先 使 用 关系 数据 库 查 询 收 集 任 务 相 关 的 数据 ， 然 后， 通过 考察 
任务 相关 数据 中 每 个 属性 的 不 同 值 的 个 数 ， 进 行 泛 化 。 泛 化 或 者 通过 属性 删除 ， 或 者 通过 属性 泛 化 
进行 。 聚 集 通 过 合并 相等 的 泛 化 元 组 ， 并 收集 它们 对 应 的 计数 值 进行 。 这 压缩 了 泛 化 后 的 数据 集合 。 
结果 泛 化 关系 可 以 映射 到 不 同形 式 ， 如 图 表 或 规则 ， 提 供用 户 。 

下 面 一 系列 例子 解释 面向 属性 归纳 的 处 理 过 程 。 


例 5.1 用 DMQL 说 明 特征 数据 挖掘 查询 。 假 定 用 户 想 描述 Big-University 数据 库 中 研究 生 的 

一 般 特 征 。 给 定 的 属性 有 name,gendermajorbirth_place,residence,phone# (电话 号 码 ) 和 gpa〈 平 均 
等 级 分 )。 该 特征 的 数据 挖掘 查询 可 以 用 数据 挖掘 查询 语言 DMQL 表示 如 下 : 

use Big_University_DB 

mine characteristics as “Science_Students” 

in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpa 

from student 

where status in “graduate” 


我 们 将 看 看 这 个 典型 的 数据 挖掘 查询 例子 如 何 使 用 面向 属性 的 归纳 挖掘 特征 描述 。 口 


“面向 属性 归纳 的 第 一 步 做 什么 ? ”首先 ， 在 面向 属性 归纳 之 前 进行 数据 聚焦 。 这 一 步 对 应 于 
第 4 章 介绍 的 说 明 任务 相关 数据 〈 或 用 于 分 析 的 数据 )， 根 据 数据 挖掘 查询 提供 的 信息 进行 数据 收 
集 。 1 于 数据 挖 气 查 询 通常 只 涉及 数据 库 的 一 部 分 ， 选择 相关 的 数据 集 不 仅 使 得 挖 气 更 有 效 ， 而 且 
与 在 整个 数据 库 挖 气相 比 ， 能 够 产生 更 有 意义 的 规则 。 
对 于 用 户 来 说 ， 指 定 相 关 的 数据 集 ( 即 ， 挖 据 的 属性 ， 如 DMQL 的 in relevance to 子 句 所 指出 
的 ) te 有 时， 用 户 只 能 选择 少量 他 感到 可 能 重要 的 属性 ， 而 遗漏 在 描述 中 可 能 起 作用 
其 它 属 性 。 例 如 ， 假 定 birth_place 由 属性 city,province_or_state 和 country 定义 。 这 些 属性 ， 用 户 
相 人 city。 为 了 能 在 birth_place 维 上 泛 化 ， 定 义 该 维 的 其 它 属性 也 应 当 包 括 进 来 。 换 一 句 话 
系统 自动 地 包括 province_or_state 和 country 作为 相关 属性 ， 使 得 city 可 以 在 归纳 过 程 中 泛 化 到 
高 的 概念 层 。 
























































































































































































































































































































































































































































































































































































































































的 
只 
说 ， 
较 高 








男 一 个 极端 是 ， 用 户 可 能 引进 太 多 属性 ， 
Fh 情 况 下 ， 被 from 子 句 说 明 
绍 一 种 方法 ， 
“ 子 句 “where status in “graduate”” 


种 
的 。 

















5.3 节 介 








念 分 层 。 这 征 


成 较 高 层次 的 概念 





而 在 数据 挖掘 





中 概念 分 
， 如 


层 将 status 的 原始 层 的 值 ， 








性 。 在 这 
述 是 没有 





如 用 “in relevance to *” 指 定 所 有 可 能 的 属 
的 关系 的 所 有 属性 将 包含 在 分 析 中 。 许 多 属性 对 于 有 趣 的 
通过 过 滤 抒 统计 个 相关 或 弱 相 关 属性 来 处 理 这 种 情况 。 
是 什么 意思 ? ”该 where 子 句 意味 在 属性 status 上 存在 概 
如 ”M.Sc”, ”M.A”,M.B.A”, ”Ph.D”, ”B.Sc”, ”B.A ”组 织 
这 种 概念 分 层 在 传统 的 关系 查询 语言 中 没有 ， 

















































































































’graduate” 和 ”undergraduate”。 











时 语 言 旺 言 中 是 





普遍 的 。 





例 5.2 ”转化 数据 挖掘 查询 为 关系 查询 。 例 5.1 的 数据 挖掘 查询 被 转换 成 如 下 关系 查询 ， 收 集 任 

务 相关 的 数据 集 。 
use Big_university_DB 

select name,gender,major,birth_place,birth_date,residence,phone#,gpa 

from student 





where status in {”M.Sc”, 


转换 后 的 查询 在 关系 数据 库 Big_university_DB 
初始 工作 关系 ， 
认为 关系 的 元 组 是 合 取 规 则 ， 


初始 工作 关系 : 任务 相关 数据 集合 








表 5.1; 


name 


gender 


”M.A”,M.B.A”,”Ph.D”} 

















上 执行 ， 返回 表 5.1 所 示 数 据 。 该 表 称 作 (任务 相 关 ) 
是 要 进行 归纳 的 数据 。 注 意 ， 事 实 上 每 个 元 组 是 属性 - 值 对 的 合 取 。 因 此 ， 我 们 可 以 








而 关系 上 的 归纳 是 这 些 规则 的 一 般 化 。 口 





major birth_place birth_date residence phone# gpa 





Jim Woodman 
Scott Lachance 


Laura Lee 


M 
M 
F 


CS 
CS 
physics 


Vancouver,BC,Canada 8-12-76 
Montreal,Que,Canada 28-7-75 
Seattle,WA,USA 25-8-70 


3511,Main St., Richmand 
345, IstAve., Vancouver 
125,Austin Ave.,Burnaby 


687-4598 
253-9106 
420-5232 


3.67 
3.70 
3.83 





“对 于 面向 属性 

本 操作 是 数据 泛 化 ， 

属性 删除 基 了 

没有 泛 化 操作 符 〈 例 如 ， 对 该 属性 没有 定义 概念 分 
作 关 系 中 删除 。 





则 该 属性 








应 当 从 工 














个 限制 ， 
将 属性 删除 ， 








该 规则 的 理 
从 而 泛 化 
































归纳 ， 现 在 数据 已 经 准备 好 ， 如 何 进行 面向 属性 





归纳 ? ” 面 癌 属 性 归纳 的 基 








它 可 以 
F 如 下 规则 : 如 果 初 始 工作 关系 的 某 个 属性 


何在 ? 一 个 属性 - 值 对 表示 泛 化 元 组 或 规则 
了 规则 。 如 果 是 
因为 它 不 能 

















用 两 种 方法 之 一 在 初始 关系 上 进行 ， 属性 删除 ， 属 性 泛 化 。 


有 大 量 不 同 的 值 ， 但 是 (1) 在 此 属性 上 
层 )， 或 者 (2) 它 的 较 高 层 概念 用 其 它 属性 表示 ， 


































































































的 一 个 合 取 。 删除 一 个 合 取 就 删除 了 一 
但 对 它 没 有 泛 化 操作 符 ， 应 当 


规则 相 巴 盾 的 大 量 不 同 值 。 力 























情况 1， 属 性 具有 大 量 的 不 同 值 ， 


被 泛 化 ， 保 留 它 就 意味 着 保留 与 产生 的 简洁 















































一 方面 ， 考 虑 ， 





概念 。 这 对 应 于 泛 化 规则 ， 
删除 和 属性 泛 化 两 个 规则 都 表明 ， 如 
个 问题 : 多 大 才 
这 取决 于 属性 或 应 用 ， 
泛 化 到 较 高 的 





属性 
就 提出 了 一 

















青 况 2， 属 性 的 高 层次 概念 用 其 它 属性 
概念 被 属 性 (city, province_or_state, country) 表 未 。 册 
器 学 习 中 示例 学 习 的 删除 条 件 。 

属性 泛 化 基 了 
化 操作 符 ， 则 应 当 
泛 化 工作 关系 中 元 组 的 属性 


FF 如 下 规 贝 
选择 该 泛 化 操 











它 的 高 层次 
| 对 应 于 机 


表示 。 例 如 ， 假 定 该 属性 是 street， 
价 于 使 用 泛 化 操作 。 该 规 贝 





























| 除 street 等 

















I: 如 果 和 初始 工作 关系 的 某 个 属性 有 大 量 不 同 的 值 ， 并 且 该 属性 上 存在 泛 
作 符 ， 并 将 它 用 于 该 属性 。 该 规则 基于 如 下 理由 : 使 用 泛 化 操作 符 
值 或 规则 ， 将 使 得 规则 涵盖 更 多 的 原 数据 元 组 ， 从 而 泛 化 了 它 所 表示 的 








































































































| 象 层 。 




















在 示例 学 习 中 称 为 沿 泛 化 树 攀 升 或 沿 概 念 树 梦 升 。 
果菜 属性 有 大 量 的 不 同 值 ， 应 当 进 行进 一 
“属性 具有 大 量 不 同 值 ”? 












































步 泛 化 。 这 























具 


一 





有 



































上 5 





有 的 用 户 愿意 让 有 些 属性 留 在 较 低 的 抽象 层 ， 而 男 一 














控制 





























] 户 愿意 将 它们 
该 过 程 的 控制 称 为 属性 














各 属性 泛 化 到 多 高 的 抽象 层 通常 是 相当 主观 的 。 

















泛 化 控制 。 妇 








面向 属性 


[ee 


直 








个 冰 值 。 























a 
面 ， 如 果 属 性 不 泛 化 到 “足够 高 的 
的 泛 化 应 当 把 握 好 尺度 。 
有 一 些 方法 控 币 
第 一 个 技术 和 


| 泛 化 过 程 。 
称 作 属性 泛 化 阐 值 控制 ， 或 者 对 所 有 的 属性 设置 
如 果 属 性 的 不 同 值 























8 没有 多 少 信息 。 另 一 广 
不 含 多 少 信息 。 这 样 ， 





年 属 ， 
> 泛 化， 产生 的 规则 可 入 
能 泛 化 不 足 ， 得 到 的 规则 可 能 











层次 39? 





我 们 介绍 两 种 常用 的 方法 。 








:人 


个 泛 化 阔 值 ， 或 者 对 每 个 属性 设 
步 的 属性 删除 或 属性 泛 化 。 















































个 数 大 于 属性 泛 化 阔 值 , 则 应 当 








进行 进 


























bt 














数 超过 该 六 值 


修改 该 阔 值 。 如 果 
于 沿 着 属性 下 钻 。 为 进一步 泛 化 关系 ， 上 月 
第 二 种 技术 称 作 泛 化 关系 阐 值 控制 ， 为 泛 化 关系 设置 一 个 闹 值 。 妇 







































































统 ! 


























阐 


户 感到 泛 化 和 
值 ， 这 意味 上 卷 。 

















控 人 





初始 关系 
等 的 实例 。 这 52 个 相等 的 元 组 合 3 


做 。 
系 的 每 个 元 组 ， 它 的 值 被 初始 
导致 相 等 的 元 组 分 旨 
的 新 计数 设置 成 初始 关系 中 被 新 的 泛 化 元 组 代表 的 元 组 的 i 
52 个 数据 元 组 被 泛 化 成 同一 个 元 组 7。 即 ， 这 52 个 元 组 的 泛 化 产生 元 组 7 的 52 个 相 
， 形 成 了 的 一 个 实例 ， 其 计数 设置 成 52。 其 它 流行 的 聚集 函数 

















术 

















在 许多 面 





， 则 应 当 进 行进 
预先 设 定 〈 通 常 取 值 范 
的 关系 太 小 ， 他 可 以 力 


这 两 种 技术 可 以 顺序 使 用 : 
站 进一步 压 缩 产生 的 关系 。 无 论 使 
到 有 趣 的 概念 描述 
句 数据 库 的 归 























首先 使 用 


上 大 阅 








步 泛 化 ; 否则 ， 不 
围 为 10 到 30) ， 或 者 | 
值 ， 这 意味 - 


型 地 ， 数 据 挖 所 系统 有 一 个 省 缺 的 属性 阔 值 〈 取 值 范 
] 户 感到 对 于 一 个 特定 的 属性 ， 泛 化 达到 的 层次 太 高 ， 他 可 以 力 
届 性 闵 值 ， 这 对 应 于 沿 属性 上 卷 。 
1 果 泛 化 关系 中 不 同 元 组 的 个 


日 户 也 可 以 减 小 











围 一 般 为 2 到 8) ， 




























































































日 。 在 这 利 


息 。 这 样 ， 在 归纳 过 程 中 收集 计数 和 
一 个 特殊 的 度量 或 数值 属性 为 聚集 函数 
化 为 1。 通过 妙 
情况 下 ， 形 成 一 组 的 所 有 相等 元 组 应 当 合并 成 











纳 过 程 


























其 它 


一 


聚 

































































目 





























人 否 








则 ， 为 进 




















， 用 户 感 兴趣 的 是 在 不 同 的 提 
集 值 是 非常 习 


I 除 属性 和 属 怕 











象 层 得 


























允许 调 





再 进一步 泛 化 。 这 样 的 阔 值 也 可 以 在 数据 挖掘 系 
用 户 或 专家 设置 ，; 
下 钻 。 





届 性 泛 化 阔 值 控制 技术 泛 化 每 个 属性 ， 然 后 使 


] 哪 种 泛 化 控制 技术 ， 都 应 当 允 许 用 户 调整 泛 化 立 
到 数据 的 量化 或 统 





EE 要 的 。 概 念 上 讲 ， 这 伯 
count， 它 与 每 个 数据 库 元 组 相关 联 。 对 于 初始 工 
FE 泛 化 ， 在 初始 关系 中 的 元 组 可 


加 


HEo 


步 泛 化 关系 ， 他 可 以 减 小 


并 日 也 允许 用 户 或 专家 
1 大 阔 值 ; 


这 对 应 











例如 ， 如 果 





用 关系 闵 值 
和 下， 以 便 得 








十 信 


F 事 可 以 用 如 下 办 法 





作 关 
能 被 泛 化 ， 








个 元 组 。 泛 化 的 元 组 























十 数 和 。 例 如 ， 假 定 




















民 据 面 问 属 


生 归 纳 ， 





包括 sum 和 avg。 对 于 一 个 给 定 的 泛 化 的 元 组 ，sum 包含 产生 该 泛 化 元 组 的 初始 关系 的 给 定数 值 属 


性 值 的 和 。 假 定 元 组 7 包含 sum (units_so70) 作为 聚集 函数 ， 元 组 7 的 sum 值 应 当 











组 的 wnits so7q 总和。 
例 5.3 面向 属性 归纳 。 这 是 














了 到 住 


和 不 








函数 avg 



































设置 为 53 个 元 




















民 据 公式 avg = sum/count 计算 。 





上 进行 归纳 。 对 于 关系 的 每 个 属性 ， 泛 化 过 程 如 下 : 


1 
2. 
0 


4 


ol 


| 


8. 














name: 由 于 name 存在 大 量 不 同 值 ， 并 日 





























gender: 





























Wajor: 假定 已 定义 了 


business} 。 还 假定 该 属 怕 


泛 化 和 属性 泛 化 控制 





其 上 没有 泛 化 操作 符 ， 该 














届 怕 











于 gender 只 有 两 个 不 同 值 ， 该 属性 保留 ， 并 且 不 对 其 进行 汉化。 


FE 被 删除 。 


,我 们 看 看 面向 属性 归纳 如 何在 例 5. 2 得 到 的 初始 工作 关系 表 5. 1 


个 概念 分 层 ， 允许 将 属性 major 泛 化 到 值 {arts&science, engineerinsg, 














birth place: 该 属性 





py = 











大 量 不 同 值 























的 泛 化 阔 值 设置 为 5， 并 有 
治 概念 分 层 向 上 侈 
， 医 














义 为 czt 《 province or state 《< countrz 如 
属性 泛 化 阔 值 ， 则 27rz 友 pyace 应 当 删 除 ， 
的 不 同 值 个 数 小 卫 
屋 ， 可 以 将 birth oate 泛 化 到 age， 而 age 到 age _rangse， 并 且 
六 对 应 的 属性 泛 化 阔 值 ， 则 应 当 对 birth_qate 进行 泛 化 。 

















如 果 假 定 country 


birth_date: 假定 存在 概念 分 











age range 的 不 同 值 〈 














residence 





人 


人 














多 ， 因 


residence city， 其 包含 较 少 
phone# 从 名 字 可 以 看 出 ， 该 
8pa: 假定 存在 gpa 的 概念 分 
述 值 {excel]Jent, very 
泛 化 过 程 将 产生 相等 元 组 的 引 





被 用 






































假 定 
residence province or 
为 这 些 概念 的 层次 相当 低 。 因 
的 不 同 值 。 
FE 包 含 太 多 不 同 值 ， 
民 ， 将 等 级 分 分 成 数 
So00g ... |} 分 组 。 这 相 





区 间 ) 数 小 了 


residence 


























被 属 


四 











[初始 关系 中 ma7or 有 20 不 同 值 。 根 据 属 性 
升 ，maJjor 被 泛 化 。 
此 应 当 泛 化 它 。 假 定 存在 bi1rth_place 的 概念 分 
果 初 始 工 作 关 系 中 country 的 不 同 值 个 数 大 于 





户 心 z 
云 ， 丰 











性 














number, 





因为 尽管 存在 泛 化 操作 符 ， 泛 化 阔 值 也 不 会 满足 。 











F 泛 化 阔 值 ， 则 birth_p7ace 应 当 泛 化 到 birth_country。 


Street, residence city, 
state 和 residence_country 定义 。number 和 street 的 不 同 值 多 半 


此 ，nuwmber 和 street 应 当 删 除 ， 将 residence 泛 化 到 











[E 





届 怕 









































因此 应 当 在 泛 化 中 删除 。 
值 区 间 ， 如 {3. 75-4. 0，3. 5-3. 75,...}， 
# ， 该 属性 可 以 被 泛 化 。 
日 。 例 如 ， 表 5.1 的 前 两 个 元 组 被 泛 化 成 相同 的 元 组 〈 即 ， 表 5. 2 


和 


EX 



































的 第 一 个 元 组 ) 。 这 些 相同 的 元 组 被 合并 成 一 个 ， 同 时 累计 它们 的 计数 值 。 这 一 过 程 导 致 表 5.2 所 
示 的 泛 化 关系 。 
表 5.2: 通过 对 表 5. 1 的 数据 进行 面向 属性 归纳 得 到 的 泛 化 关系 
g ma birth co age residen gpa C 
ender jor untry range ce city ount 
M Sc Canada 20. . Richmon very 1 
F ience Foreign 25 d _good 6 
Sc 25. . Burnaby exce 2 





5.2.2 





ience 








面向 属性 归纳 的 有 效 实现 


根据 OLAP 的 术语 , 我 们 可 以 把 count 看 作 度 量 
可 以 用 于 如 salary, sales 等 数值 属性 。 
在 下 面 的 小 节 ， 提 供 泛 化 的 实现 技术 和 方法 。 














串 














“面向 属性 
。 算法 的 有 效 人 





E 分 析 如 下 : 

















的 归纳 如 何 实际 实现 ? ” 


前 一 小 节 介 引 





























， 而 其 它 属性 看 作 维 。 沪 
这 些 属性 称 为 度量 属性 。 


了 面向 属性 





llent 





的 归纳 。 





2 


一 般 过 程 总 


主意 ， 聚集 函数 ， 如 SUmy， 





结 在 图 





5.1 





算法 的 第 1 步 基本 上 是 关系 查询 ， 将 任务 相关 的 数据 收集 到 工作 关系 1 中 。 其 有 效 性 依赖 于 所 


























用 的 查询 处 理 方法 。 有 大 量 























量 成 功 实现 的 商品 化 数据 库 系统 ， 该 步 可 望 
第 2 步 收集 初始 关系 上 的 统计 。 这 最 多 需要 对 该 关系 扫描 一 次 。 对 每 个 属性 计算 最 低 期 望 层 和 














确定 映射 对 (vw) 依赖 于 


算法 : 面向 属性 归纳 。 根 据 用 户 的 数据 挖掘 请 求 ， 在 关系 数据 库 | 
(i) 关系 数据 库 7B; (ii) 数据 挖掘 


输入 : 





性 a 等 ) ; (iv) 概 念 


每 个 属性 的 不 同 值 














数量 























a&; 的 泛 化 阔 值 a gen thresh(ai)。 


输出 : 主 泛 化 关系 己 
方法 : 方法 如 下 。 


1l. We get task relevant data (DQuery, DB):; 
2. prepare for generalization(W ; 











(a) 扫描 有 办 收集 每 个 
本 来 做 。) 




















(b) 对 于 每 个 属性 a;， 根 据 给 定 的 或 省 
删除 ， 则 计算 它 的 最 小 期 望 层 次 L;， 并 


属性 


// 该 
a 的 不 同 值 。 ( 


缺 的 




















不 同 值 ， 而 vw 是 其 对 应 的 在 层 Lj 的 泛 化 


3. P< generalization(W ; 





通过 用 其 在 映射 中 对 应 的 将 


出 主 泛 化 关系 己 


这 一 步 可 以 用 两 种 方法 有 效 地 实现 : 















































其 








查询 DWQuery; (iii) 属性 对 
分 层 或 属性 a; 上 的 泛 化 操作 符 的 集合 Gen (a) ; 





步 实现 如 下 
注意 : 






































-7 
o 





属性 





浆 值 ， 





























赴 。 


于 每 个 泛 化 元 组 ， 通 过 二 分 检索 将 它 插入 主 关 系 P 中 。 
简单 地 增加 它 的 计数 值 并 相应 地 处 理 


人 取信 








值 ; 


确定 映射 对 《〈z 六， 其 


确定 a; 














// 工作 关系 8 存放 任务 相关 的 数据 。 





有 很 好 的 性 能 
， 它 比 初始 关系 的 元 组 数 n 小。 
F 挖 抉 泛 化 特征 。 


表 a 77st (包含 属 
(v) 每 个 属性 





如 果 矿 很 大 ， 可 以 通过 考察 VV 的 样 





是 否 应 当 删 除 ， 如 果 不 
， TV 是 中 a 的 











换 中 每 个 值 训 累计 计数 并 计算 所 有 聚 得 











值 ， 


已 
村 


























如 果 元 旨 














已 杀 














加 
(b) 在 大 部 分 情况 下 ， 


于 主 关系 不 同 值 的 个 数 

















数组 ， 其 中 w 是 了 中 的 属性 数 ， 而 每 个 维 
数组 的 每 个 元 素 存 放 对 应 的 计数 和 划 












































通过 对 应 的 数组 元 素 





上 的 度量 聚集 进行 。 








第 3 
对 于 
(al ， 每 个 女 时 

性 为 0(nx7og Dp)。 
化 元 组 的 时 间 复 杂 性 








万 中 的 每 个 元 组 t+， 根 据 导 








为 0(D)。 





许多 数据 分 析 任务 需要 考察 很 多 维 





属 4 
论 ) ， 需 要 大 量 


人 “in relevance to *” 。 





因 

















生 ， 而 个 仅仅 是 挖 据 伍 询 ， 





























上 介 乡 


此 ， 数 据 方 实现 是 以 








图 5.1 
步 导出 主 关系 已 这 通过 将 泛 化 元 组 插 








面向 属性 


归纳 的 基本 算法 





届 怕 
入 到 




















出 的 映射 对 


每 个 刀 需 号 

















民 少 ， 可 以 将 主 
包含 对 应 的 泛 化 
它 聚 集 值 (如果 有 的 话 ) 。 











日 已 在 P: 
否则 ， 将 它 插入 PP。 
关系 编码 ， 作 为 太 维 











局 性 





值 。 














如 果 有 的 话 
泛 化 元 组 的 插 











， 则 























~ 











入 











P 中 完成 。7 中 有 个 元 组 ，P 中 有 pp 个 元 组 。 





替换 它 的 属性 值 

















， 产 生 泛 化 元 组 





需要 0(7og p) 时 间 找 到 计数 增值 或 插入 位 置 。 
如 果 采 用 方法 (b)， 








本 
x 


或 属性 。 例 如 ， 交 互 式 数据 挖掘 系统 可 
说 明 的 那些 属性 。 高 级 的 描述 数据 挖掘 任务 





昌 性 的 属性 相关 分 析 。 此 外 ， 不 太 知 道 























0(D) 时 间 找 到 计数 增值 


t*。 如 果 采 用 方法 














这 样 ， 所 有 泛 化 元 组 总 的 时 间 复 杂 























元 组 。 这 样 ， 所 有 泛 














能 动态 地 引入 和 测试 
， 如 解析 打 
真正 的 相关 数据 集 的 用 户 可 


寺 征 (5.3 节 讨 
能 简单 地 在 挖掘 


在 这 些 情 况 下 ， 聚 集 值 的 预计 算 将 加 快 大 量 维 或 属性 的 分 析 。 








的 数据 库 实现 的 一 种 吸引 人 的 替换 。 














该 方法 是 所 期 望 的 。 由 了 
有 效 地 下 和 





面向 属性 








归纳 的 数据 方 实现 可 以 采用 两 利 





对 给 定 的 数据 挖掘 查询 临时 构造 数据 方 : 
如 果 任 务 相 


占 。 有 了 这 种 数据 方 ， 








方 
询 术 





二 者 之 间 的 一 个 折衷 是 计算 方 结构 的 “次 主 ” 关 系 ， 其 泛 化 关系 的 每 个 维 











的 某 


























一 点 。 这 将 便于 以 合理 的 存储 条 


























目 关 的 数据 集 太 特殊 ,不 能 与 人 








方法 进行 。 


该 方法 根据 任务 相关 的 数据 集 ， 动 态 地 构造 数据 方 。 





下 钻 到 主 关系 



































处 E> 











开 





i 























时 地 从 方 ! 





层 之 下 ， 只 需要 简 瑞 
间 层 稍 做 泛 化 ， 而 不 是 从 基本 层 数 据 进行 泛 化 。 


昌 关 的 数据 方 的 计算 , 与 简单 地 计算 主 关 系 相 比 ， 这 可 能 涉及 更 多 的 处 理 














F 何 预定 义 的 数据 方 匹 配 , 或 者 任务 相关 的 数据 集 不 太 大 时 ， 
六 这 种 数据 方 仅 当 查 询 提 交 之 后 才 计 算 ， 构 造 这 种 数据 方 的 主要 动机 是 便于 
提取 数据 ， 或 由 存放 在 
然而 ， 由 于 面向 属性 的 数据 泛 化 涉及 碍 





























E， 从 而 增加 了 响应 时 间 。 























下 外 到 这 些 层 ， 尽 管 超 过 这 些 层 的 进 























层次 比 主 关系 的 层次 稍 深 
步 下 外 仍然 需要 从 









































原始 层 数据 泛 化 。 注 意 ， 这 种 下 钻 多 半 是 局 部 的 ， 而 不 是 散布 在 整个 数据 方 上 。 

使 用 预定 义 的 数据 方 : 另 一 种 方法 是 : 在 数据 挖掘 查询 提交 系统 之 前 构造 数据 方 ， 并 对 其 后 的 
数据 挖 据 使 用 预定 义 的 数据 方 。 如 果 任 务 相 关 的 数据 的 粒度 与 预定 义 的 数据 方 一 致 ， 并 且 任 务 相 关 
的 数据 量 相当 大 ， 该 方法 是 所 期 望 的 。 由 于 这 种 数据 方 是 预计 算 的 ， 它 便于 属性 相关 的 分 析 、 面 向 


属性 归纳 、 切 片 和 切 块 、 上 卷 和 下 钻 。 必 须 付 出 的 代价 是 不 容 忽视 的 数据 方 ; 





计算 /存储 
如 第 2 章 所 述 。 











5.2.3 ”导出 泛 化 的 表示 


式 将 


“面向 属性 归纳 产生 一 个 或 一 组 泛 化 
述 提供 给 用 户 。 



























































[面向 属性 





























例 5.4 假定 在 AllElectronics 的 sa7es 























。 如 何 直观 地 表示 这 些 








开销 和 访问 速度 之 间 的 一 个 折衷 是 ， 选 择 性 地 预计 算 所 有 可 能 



























































十 算 





开销 和 存储 开销 。 
物化 的 方 体 的 一 个 子 集 ， 





























述 ? ”可 以 用 多 种 不 同 的 形 
de 


关系 上 进行 面向 属性 归纳 ， 产 生 1999 年 销售 的 泛 化 

































































描述 表 5. 3。 该 描述 以 泛 化 关系 的 形式 给 出 。 例 5. 3 的 表 5. 2 是 泛 化 关系 的 另 一 个 例子 。 口 
表 5.3: 1997 年 销售 的 泛 化 关系 
location item sales ($1, 00 count (1, 
0, 000) 000) 
亚洲 TV 15 300 
欧洲 TV 12 250 
北美 TV 28 450 
亚洲 计 算 120 1000 
机 
欧洲 计 算 150 1200 
机 
北美 计 算 200 1800 
机 
描述 也 可 以 用 交叉 表 的 形式 显示 。 在 二 维 交 叉 表 中 ， 每 行 显示 一 个 属性 


属性 的 值 。 在 n 









































维 >2) 交 叉 表 中 ， 列 可 以 显示 多 个 属性 








的 值 ， 子 和 显示 











似 于 电子 数据 表 。 容 易 直 接 将 数据 方 结构 映射 到 交叉 表 。 


例 5.5 表 5.3 的 泛 化 关系 可 以 转换 成 3-D 交叉 表 ， 如 表 5.4 所 示 。 口 























的 值 ， 每 列 显示 另 一 个 




















攻 


属性 - 什 

















组 。 这 种 表示 类 








表 5.4: 1997 年 销售 的 交叉 表 
locatio TV 计算 机 两 项 商品 
n\item 
S C Sa 多 S C 
ales ount les ount ales ount 
亚洲 1 120 1 1 1 
5 300 000 35 300 























欧洲 1 150 1 1 1 
2 250 200 62 450 
北美 2 200 1 2 2 
8 450 800 28 250 
所 有 地 5 1 470 4 5 5 
区 5 000 000 25 000 
泛 化 数据 也 可 以 用 图 的 形式 表示 ， 如 条 形 图 、 饼 图 和 曲线 。 数 据 分 析 中 使 用 图 表示 是 很 流行 的 。 
这 种 图 和 曲线 可 以 表示 2-D 和 3-D 数据 。 
例 5.6 表 5.4 的 交叉 表 销 售 数据 可 以 转换 成 图 5. 2 的 条 形 图 表示 和 图 5. 3 的 饼 图 表示 。 口 
250 
200 
喇 150 
吉 
迎 100 
0 
lL TY 计算 机 ”TW 计算 机 
图 5.2 1999 年 销售 的 条 形 图 表示 
亚洲 
北美 (27.27%) 
C50.91%) 
欧洲 
(21.82%) 
亚洲 TV 销售 亚洲 
北美 (25.53%) 北美 (25.71%%) 
(42.56%) (43.43%) 
欧洲 欧洲 
(31.91%) (30.86%) 
计算 机 销售 TV+ 计算 机 - 销 此 
图 5.3 ”1999 年 销售 的 饼 图 表示 
最 后 ，3-D 泛 化 关系 或 交叉 表 可 以 用 3-D 数据 方 表 示 。 这 种 3 维 数据 方 视 图 是 一 种 吸引 人 的 数 
据 方 浏览 工具 。 
例 5.7 考虑 图 5.4 所 示 关 于 维 7tem 1ocation 和 cost 的 数据 方 。 单 元 的 s7ze( 用 小 方 体 显示 ) 
代表 对 应 单元 的 计数 ， 而 单元 的 亮度 可 以 用 于 表示 单元 的 另 一 个 度量 ， 如 sum(sa7es) 。 旋 转 、 上 卷 、 





下 和 





































































































































































































占 、 切 片 和 切 块 操作 可 以 点 击 鼠 标 ， 在 数据 方 浏览 器 上 进行 。 口 




















| Furope 





location 





图 5.4 1999 年 销售 的 3-D 方 视图 表示 























泛 化 关系 也 可 以 用 风 辑 规则 的 形式 表示 。 典型 地 ， 每 个 泛 化 元 组 代表 一 个 规则 析 取 。 由 于 大 型 
数据 库 中 的 数据 通常 分 布 在 一 个 发 散 的 区 间 ， 单 个 泛 化 元 组 不 太 可 能 代表 初始 工作 关系 100% 的 元 
组 。 这 样 ， 每 个 规则 应 当 带 上 量化 信息 ， 如 满足 规则 左 部 ， 也 满足 规则 右 部 的 元 组 所 占 的 百分比 。 
带 有 量化 信息 的 逻辑 规则 称 为 量化 规则 。 

为 定义 量化 特征 规则 ， 我 们 引入 娘 权 作为 兴趣 度 度 量 ， 描 述 规则 中 每 个 析 取 或 对 应 泛 化 关系 的 
每 个 元 组 的 典型 性 。 该 度量 定义 如 下 : 设 待 特 化 的 《或 被 规则 描述 的 ) 对 象 类 称 为 目标 类 ，9。 是 一 
个 描述 目标 类 的 泛 化 元 组 。g, 的 六 权 是 来 自 初始 工作 关系 被 9。 涵盖 的 目标 类 元 组 的 百分比 。 形 式 
地 ， 我 们 有 






































































































































t_ weight = count(gq, ) 全 加 count(g;) 

(5. 1) 

其 中 , bw 是 泛 化 关系 中 目标 类 元 组 的 个 数 , gq, , . . .，g, 泛 化 关系 中 目标 类 元 组 , ,在 gq,,...,g， 

中 。 显 然 ， 太 权 的 取 值 区 间 为 [0. 0, 1. 0] 或 [0%, 100%]j。 

一 个 量化 特征 规则 可 以 表示 为 〈1) 逻辑 形式 ， 涵 善 目标 类 的 每 个 析 取 带 有 一 个 对 应 的 太 权 ; 
或 者 〈2) 关系 表 或 交叉 表 形 式 ， 表 中 目标 类 元 组 的 count 值 换 成 对 应 的 六 权 值 。 

量化 特征 规则 的 每 个 析 取 代表 一 个 条 件 。 一 般 地 ， 这 些 条 件 的 析 取 形成 目标 类 的 必要 条 件 ， 因 

ee 的 所 有 情况 导出 的 。 即 ， 目 标 类 的 所 有 元 组 必须 满足 这 一 条 件 。 然 而 ， 规 则 

能 不 是 目标 类 的 充分 条 件 ， 因 为 满足 同一 条 件 的 元 组 可 能 属于 其 它 类 。 因 此 ， 规 则 应 当 表 示 成 如 

下 













































































VHX, target c7ass( 用 全 codition(D ltim] v ... v conditiom(®D [t:m]. 
(5. 2) 
该 规则 指出 ,如 果 了 在 target cyass 中 , 则 T 满 足 condqition; 的 可 能 性 是 w, 其 中 WW 是 condition; 
或 析 取 i 的 本 权 值 ， 而 7 在 {1,...， 由 中 。 
例 5.8 表 5.4 所 示 交 义 表 可 以 转换 成 逻辑 规则 形式 。 设 目标 类 是 计算 机 商品 的 集合 。 对 应 的 
规则 的 逻辑 形式 为 : 
VE item(t) = “computer” 一 
(Jocation(¥) = “Asia”) [t:25.00%] v (71ocation(¥) =”pEkurope”) [t:30.00%] v 
(Jocation(¥) = “North America) |[t:45.00%] 
(5. 3) 
注意 ， 第 一 个 楼 权 值 25% 是 对 应 于 “(computer, hsia) ”处 的 值 1000 被 对 应 于 
“(computer, a17_regions) ”处 的 值 4000 除 的 结果 。〔 即 ，4000 表示 计算 机 销售 总 数量 。) 其 它 
两 个 t- 权 用 类 似 方法 得 到 。 其 它 目 标 类 的 量化 特征 规则 可 以 用 类 似 的 方法 计算 。 口 
“一 般 地 ， 数 据 挖掘 系统 如 何 使 用 本 权 和 兴趣 度 度量 ， 仪 显示 客观 评估 是 有 趣 的 那样 一 些 概念 
描述 ? ”为 此 目的 ， 可 以 设 定 一 个 阔 值 。 例 如 ， 如 果 一 个 泛 化 元 组 的 女权 低 于 该 阔 值 ， 则 可 以 认为 













































































































































































该 元 组 代表 数据 库 的 不 重要 部 分 ， 并 因此 可 以 作为 无 兴趣 的 而 被 忽略 。 忽 略 这 种 不 重要 的 元 组 并 不 
意味 要 将 它们 从 中 间 结 果 《〈 即 ， 主 泛 化 关系 ， 或 数据 方 ， 这 取决 于 实现 ) 删除 ， 因 为 对 于 其 后 用 户 
































通过 其 它 维 或 抽象 层 上 的 交互 式 








上 卷 、 下 钻 ， 进 行进 














步 数据 探查 ， 它 们 可 能 是 



































] 的 。 这 种 立 值 











可 以 视 为 重要 性 阔 值 或 支持 度 六 值 。 后 一 术语 在 关联 规则 挖掘 中 很 流行 。 


5.3 ”解析 特征 : 属性 相关 性 分 析 











“如 果 我 不 能 























定 哪个 属性 应 当 包含 在 类 特征 或 类 比较 中 ， 怎 么 办 ? 我 可 能 指定 了 太 多 属性 ， 





这 可 能 降低 系统 性 能 。” 属 性 相关 分 析 度 量 可 以 帮助 识别 不 相关 或 弱 相 关 属 性 ， 可 以 将 它们 排除 在 




















概念 



































5.3.1 为 什么 进行 属性 相关 性 分 析 ? 




















述 过 程 之 外 。 这 一 预 处 理 步骤 与 类 特征 或 类 比较 
绍 属性 相关 分 析 的 基本 方法 ， 以 及 它 与 面向 属性 归纳 的 集成 。 











结合 分 别称 作 解 析 特 征 和 解析 比较 。 本 节 介 





对 于 数据 仓库 和 0LAP 工具 中 的 多 维 数据 分 析 ， 类 特征 的 第 一 个 局 限 是 处 理 复杂 对 象 。 这 在 5. 2 














节 已 讨论 。 第 二 个 局 限 是 缺乏 











动 泛 化 过 程 : 用 户 必须 显 式 








每 个 维 应 当 泛 化 到 多 高 的 层次 。 事 实 上 ， 在 任何 维 





















































通常 ， 用 户 告 i 
浆 值 ， 




















当 达 到 的 汉化 层次 。 即 使 没有 用 户 的 显 式 说 明 ， 数 据 挖 
使 得 每 个 维 都 可 以 泛 化 到 上 只 包含 2 到 8 个 不 同 值 的 层次 。 如 果 




















以 指定 需要 上 卷 或 下 钻 的 维 。 











让 数据 挖掘 系统 每 个 维 















































然而 ， 对 于 用 户 来 说 ， 确 定 那 些 维 


























应 当 








告诉 系统 ， 





哪些 维 应 当 包 含 在 类 分 析 中 ， 




















上 汉化 和 特 化 的 每 一 步 都 必须 由 用 户 指 定 。 

应 当 泛 化 到 多 高 层次 并 不 困难 。 例 如 ， 用 户 可 以 设置 泛 化 
或 使 用 诸如 “generalize dimension location to country level” 的 命令 ， 说 明 给 定 维 应 
时 系统 也 可 以 设置 





















































个 省 缺 的 阔 值 2 到 8， 
j 户 对 当前 的 泛 化 层次 不 满意 ， 他 可 






































包含 在 类 特征 分 析 中 则 不 是 一 件 平 凡 的 事 。 数 据 关系 通 


常 包含 50 到 100 个 属性 ， 对 于 有 效 的 数据 挖掘， 应 当选 择 哪些 属性 或 维 ， 用 户 所 知 甚 少 。 用 户 可 




















能 在 分 析 ; 

















包含 的 属性 太 少 ， 造 成 挖掘 的 











性 〈 例 如 ， 使 用 “in relevance to *” 








和 
) 各 


述 结 果 不 完全 。 











应 当 引 进 一 些 方法 进行 属性 (或 维 
留 对 手头 挖 抉 任务 最 相关 的 属性 。 包 含 属 ' 














的 类 比较 称 为 解析 比较 。 
直观 地 ， 对 于 给 定 的 类 ， 一 个 属性 























或 维 被 认为 是 高 度 相关 的 ， 如 果 该 属性 或 维 的 值 可 能 





分 该 类 与 其 它 类 。 例 如 ， 汽 车 的 颜色 多 半 
负数 可 能 是 更 相关 的 属性 。 此 外 ， 即 使 在 同一 个 














不 能 














区 分 贵 的 和 便宜 的 汽车 ， 但 型 号 、 制 造 商 、 
人 内 ， 对 于 区 分 一 个 类 与 其 它 类 ， 不 同 层 的 概念 也 























男 一 方面 ， 用 户 也 可 能 包含 太 多 分 析 属 








包含 指定 关系 中 的 所 有 属性 ) 。 
关 性 分 析 ， 以 过 滤 掉 统计 不 相关 或 弱 相 关 的 属性 ， 而 保 
生 / 维 相关 性 分 析 的 类 特征 称 为 解析 特征 。 包 含 这 种 分 析 














日 于 区 
款式 和 汽 









































可 能 有 很 不 相同 的 能 力 。 例 如 ,在 birth qata 维 , birth day 和 birth optip 看 上 去 与 雇员 的 salary 


不 相关 。 








户 止 人 


然而 ，Dbirth_decade〔 即 ， 年 龄 区 间 〉 可 能 与 雇员 的 工资 是 高 度 相 关 的 。 这 意味 维 相关 性 























分 析 应 当 在 多 个 抽象 层 进行 ， 并 且 只 


















































且 只 有 那些 最 相关 
上 面 ， 我 们 指出 ， 属 性 / 维 的 相关 性 





























类 比较 〈 或 区 分 ) 























时 ， 目 标 类 和 对 比 类 要 
分 析 应 当 进 行 这 些 类 的 比较 。 然 而 ， 在 挖 # 





























这 样 ， 什 么 对 比 类 应 当 用 于 相关 分 析 并 非 明显 的 。 在 这 利 
可 比较 的 数据 集 都 作为 对 比 类 。 例 如 ， 为 特 生 











5.3.2 ”属性 相关 分 析 方 法 





关于 属性 相关 分 析 ， 在 机 器 学 习 、 统 计 、 模 糊 和 粗粮 集 











的 维 层次 应 当 包 含 在 分 析 中 。 
要 根据 属性 / 维 区 分 一 个 类 与 其 它 类 的 能 力 来 评估 。 在 挖掘 
明显 地 在 挖掘 查询 中 给 出 。 如 我 们 将 在 下 面 看 到 的 ， 相 关 
加 类 特征 时 ， 只 有 一 个 特征 化 的 类 。 即 ， 没 有 说 明 对 比 类 。 
情况 下 ， 除 特征 化 的 数据 集 外 ， 数 据 库 中 
FE 化 研究 生 ， 对 比 类 为 不 是 下 




































































究 生 的 学 生 的 集合 。 

































































析 的 基本 思想 是 计算 某 种 度量 ， 用 于 量化 属性 与 给 定 类 或 

















Gini 索引 、 不 确定 性 和 相关 系数 。 




















里 论 等 方面 都 有 许多 研究 。 属 性 相关 分 








下 念 的 相关 性 。 这 种 度量 包括 信息 增益 、 

















这 里 ， 我们 介绍 一 种 方法 ， 它 将 信息 增益 分 析 技 术 ( 诸 如 在 学 习 决 策 树 ID3 和 C4. 5 算法 中 提供 

的 ") 和 基于 多 维 数据 分 析 的 方法 集成 在 一 起 。 该 方法 删除 信息 量 较 少 的 属性 ， 收 集 信 息 量 较 多 的 
帅 性 ， 用 于 概念 描述 分 析 。 
“信息 增益 计算 如 何 工 作 ? ” 设 5 是 训练 样本 的 集合 ， 其 中 每 个 样本 的 类 标号 是 已 知 的 。 事 实 
上 ， 每 个 样本 是 一 个 元 组 ， 一 个 属性 用 于 确定 训练 样本 的 类 。 例 如 ， 属 性 status 可 以 用 于 定义 每 
个 样本 的 类 标号 或 者 是 “sgraduate"， 或 者 是 “upaersraauate"。 假 定 有 也 个 类 。 设 ?包含 sj; 个 CG 类 
样本 ，7 = 1，...，m。 一 个 任意 样本 属于 类 GC; 的 可 能 性 是 s; A s， 其 中 = 是 集合 5 中 对 象 的 总 数 。 
对 一 个 给 定 的 样本 分 类 所 需 的 期 望 信息 是 
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IT(s1,82.., 8) = 一》 一 1]og, 一 


i=l 























共有 值 {av ao . ee 
值 为 包 的 那些 样本 。 设 $ 包 含 类 CG 的 sj/ 个 对 象 。 根据 4 的 这 种 划分 的 期 望 信息 称 作 4 的 炳 。 
加 权 平 均 : 















































E(A) = Ds, ee 
j=1 
(5. 5) 
A 上 该 划分 的 信息 增益 定义 为 
Gain(A)= (s,s,,...,5,) — E(A) 
(5. 6) 
在 这 种 相关 分 析 方 法 中 ， 我 们 可 以 计算 定义 5 中 样本 的 每 个 属性 的 信息 增益 。 具 有 最 高 信息 增 
益 的 属性 是 给 定 集合 中 具有 最 高 区 分 度 的 属性 。 通 过 计算 信息 增益 ， 我 们 可 以 得 到 属性 的 秩 评定 。 
这 种 秩 评定 可 用 于 相关 分 析 ， 选 择 用 于 概念 描述 的 属性 。 
概念 描述 的 属性 相关 分 析 执 行 步骤 如 下 : 
1. 数据 收集 : 通过 查询 处 理 ， 收 集 目 标 类 和 对 比 类 的 数据 。 对 于 类 比较 ,目标 类 和 对 比 类 都 由 
用 户 在 数据 挖掘 查询 中 提供 。 对 于 类 特征 ， 目 标 类 是 要 特征 化 的 类 ， 而 对 比 类 是 不 在 目标 类 中 
的 可 比较 数据 。 
2. 使 用 保守 的 AOI 进行 预 相 关 分 析 : 这 一 步 识 别 属性 和 维 的 集合 , 选择 的 相关 性 度量 用 于 它们 。 
由 于 维 的 不 同 层次 对 于 给 定 的 类 具有 很 不 相同 的 相关 性 ， 原 则 上 ， 定 义 维 概念 层 的 每 个 属性 都 
应 当 包 含 在 相关 分 析 中 。 通 过 删除 或 泛 化 具有 大 量 不 同 值 的 属性 (如 ，name 和 phone 加 ， 面 问 
属性 的 归纳 (A0I) 可 以 用 来 进行 一 些 预 相 关 分 析 。 对 于 概念 描述 ， 具 有 大 量 的 不 同 值 的 属性 多 
半 没 有 意义 。 保 守 一 点 ， 这 里 进行 的 AOI 使 用 的 属性 分 析 阔 值 要 合理 的 大 ， 使 得 更 多 的 但 非 
所 有 的 ) 属性 在 进一步 相关 分 析 (下 面 的 步骤 3) 中 被 考虑 。 这 样 使 用 A0I 得 到 的 关系 称 作 控 
据 任 务 的 候选 关系 。 
2: ey a ee a 使 用 选 定 的 相关 分 析 度 量 , 评估 候选 关 
系 中 的 每 个 属性 。 此 步 所 用 的 相关 性 度量 可 以 建立 在 数据 挖掘 系统 中 ， 或 由 用 户 提供 。 例 如 ， 
eM 
确定 秩 ) 。 然后 删除 与 类 描述 任务 不 相关 或 弱 相 关 的 属性 。 可 以 设置 一 个 阔 值 来 定义 “ 弱 相 关 ”。 
其 结果 为 初始 目标 类 工作 关系 和 初始 对 比 类 工作 关系 。 
4. 使 用 A0I 产生 概念 描述 : 使 用 一 组 不 太保 守 的 属性 泛 化 阔 值 进行 A0I。 如 果 类 描述 任务 是 类 
特征 ， 这 里 只 包含 初始 目标 类 工作 关系 。 如 果 类 描述 任务 是 类 比较 ， 初始 目标 类 工作 关系 和 初 
始 对 比 类 工作 关系 都 要 包含 在 分 析 中 。 
该 过 程 的 复杂 性 类 似 于 图 5. 1 中 的 算法 ， 因 为 归纳 过 程 进行 了 两 次 ， 一 次 是 预 相关 分 析 ( 步 
2) ， 另 一 次 是 在 初始 工作 关系 上 归纳 (步骤 4) 。 以 选 定 度量 进行 属性 相关 性 分 析 ( 步 、 
的 统计 可 以 在 步骤 2 的 数据 库 扫 描 时 确定 。 
5.3.3 解析 特征 :一 个 例子 

























































































































































































































































































































































































































































































































































































































































































































































































































































































判定 树 是 一 个 类 似 于 流程 图 的 树 结构 ， 其 中 ， 每 个 结 点 表示 属性 上 的 一 个 测试 ， 每 个 分 枝 代 表 一 个 测试 的 输出 ， 
而 树叶 代表 类 或 类 分 布 。 判 定 树 对 于 分 类 是 有 用 的 ， 并 且 容 易 转 换 成 逻辑 规则 。 判 定 树 归纳 的 讨论 在 第 7 章 。 






























































如 果 挖 掘 的 类 描述 涉及 许多 属性 ， 应 当 运 行 解 析 特征 。 该 过 程 在 进行 特 化 之 前 ， 首 先 删 除 不 相 
关 或 弱 相 关 的 属性 。 让 我 们 考察 一 个 解析 挖掘 过 程 的 例子 。 
例 5.9 假定 我 们 想 使 用 解析 特征 挖掘 Big-University 的 研究 生 的 一 般 特 征 描述 。 给 定 的 属性 
是 name, gender, major, birth place, birth aate， 0 gpPae 
“解析 特征 如 何 执行 ? ”第 1 步 ， 收 集 目标 类 数据 ， | 研究生 的 集合 组 成 。 还 需要 对 比 类 的 
数据 ， 以 便 进行 相关 分 析 。 对 比 类 取 本 科 生 的 集合 。 
第 2 步 ， 用 保守 的 属性 泛 化 阔 值 进行 面向 属性 的 归纳 ， 通 过 属性 删除 和 属性 泛 化 进行 预 相 关 分 
析 。 类 似 于 例 5.3， 属 性 name 和 phone 玻 删除 ， 因 为 它们 的 不 同 值 个 数 超 过 了 它们 对 应 的 属性 分 
析 阔 值 。 与 例 5. 3 相同 ， 使 用 概念 分 层 将 birth_place 泛 化 到 birth country，birth date 泛 化 到 
age_range。 属 性 maJjor 和 gpa 也 使 用 例 5. 3 的 概念 分 层 泛 化 到 较 高 的 抽象 概念 层 。 因 此 ， 候 选 关 
系 中 剩 下 的 属性 是 gender，major，pbirth country，age range 和 gpa。 结 果 关 系 在 表 5.5 和 5. 6 
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第 3 步 ， 使 用 选 定 的 相关 分 析 度 量 ( 如 ， 信 息 增 益 ) ， 评 佑 候选 关系 中 的 属性 。 设 C 对 应 于 研究 
人 对 应 于 本 科 生 类 。 在 研究 生 类 有 120 个 样本 ， 本 科 生 有 130 个 样本 。 为 计算 每 个 属性 的 信 
增益 ， 我 们 先 用 (5. 少 式 计算 对 给 定 的 样本 分 类 所 需要 的 期 望 信息 。 即 

120 120 130 130 


1(s1,s,)= 人 


JI 























































































































表 5.5 由 解析 特征 得 到 的 候选 关系 : 目标 类 《研究 生 ) 

g major birth c age gpa G 
ender ountry range ount 
M Scienc Canada 21:. very_ go 1 

F e Foreign .25 od 6 
M Scienc Foreign 26. . excelle 2 

F e Foreign .30 nt 2 
M Engine Canada 26.. excelle 1 

F ering Canada .30 nt 8 
Scienc 26. . excelle 2 

e .30 nt 5 
Scienc 21,.., excelle 2 

e 3 nt 有 
Engine 2 excelle 1 

ering .25 nt 8 

















表 5.6 由 解析 特征 得 到 的 候选 关系 : 对 比 类 (本 科 生 ) 

















ge major birth count age rang gpa C 
nder ry e ount 
M Scienc Foreign <= 20 Very_go 1 

F e Canada <=20 od 8 
M Busine Canada <= 20 fair 2 

F ss Canada 2 fair 0 
M Busine Foreign .25 fair 2 

F ss Canada 2 very go 2 
Scienc :20 od 2 

e 《 =20 excelle 4 
Engine nt 2 

ering 2 
Engine 2 








ering 4 

















下 一 步 ， 我 们 需要 计算 每 个 属性 的 箭 。 让 我 们 试 属性 wajor。 我 们 需要 观察 对 于 属性 wajjor 的 
每 个 值 ， 研 究 生 和 本 科 生 的 分 布 。 对 每 个 分 布 ， 计 算 期 望 信息 。 








对 于 major = ”Sec7emncen” 


S11 三 S21 = 42 JT(su, S21) 二 
84 0.9183 
对 于 major = ”Engineering” 
ig 二 S22 = 46 JT(sw, S22) = 
36 0. 9892 


对 于 major = ”Business” 
Si3= 0 S23 = 42 Ts S23) = 0 


























使 用 (5.5) 式 ， 因果 杰 本 根据 majjor 划分 ， 则 对 给 定 的 样本 过 和 分 类 所 需 的 期 望 信息 是 : 


Elmajon) = 20 Tsi0s2) + 2 Tt, 52) +2 Ts,5) = 0.7873 











因此 ， 这 样 的 划分 的 信息 增益 是 : 


























Gain(major) = 1(s1,s,)— E(major) = 0.2115 











类 似 地 ， 我 们 可 以 对 剩 下 的 属性 计算 信息 增益 。 对 于 每 个 属性 ， 它 们 的 信息 增益 按 递增 序 分 别 
是 : gender: 0. 0003, pirth country: 0.0407, major: 0.2115, gpa: 0. 4490 和 age range: 0. 5971。 























假定 我 们 用 于 识别 弱 相 关 性 的 属性 相关 闭 值 为 0. 1。 属性 gender 和 birth country 的 信息 增益 小 于 








该 逆 值 ， 因 此 被 认为 是 弱 相 关 的 。 这样， 它们 被 删除 。 对 比 








类 也 被 删除 ,产生 初始 目标 类 工作 关系 。 














第 4 步 ， 按 照 图 5. 1 算法 ， 将 面向 属性 归纳 用 于 初始 目标 类 工作 关系 。 




















5.4 挖掘 类 比较 : 区 分 不 同 的 类 


在 许多 应 用 中 ， 人 们 可 能 对 单个 类 (或 概念 ) 的 描述 或 特 
它 将 一 个 类 (或 概念 ) 与 其 它 可 比较 的 类 (或 概念 ) 相 区 分 。 












































征 化 不 感 兴趣 ， 而 希望 挖 据 一 种 描述 ， 
类 区 分 或 比较 (此 后 称 为 类 比较 ) 挖 




































































较 的 ， 计 算 机 系 的 学 生 和 物理 系 的 学 生 同 样 是 可 比较 的 。 
































在 前 几 节 ， 我 们 关于 类 特征 的 讨论 处 理 单个 类 中 的 多 层 数 据 的 汇总 和 特征 。 所 开发 的 技术 应 当 














掘 将 目标 类 与 对 比 类 相 区 分 的 描述 。 注 意 ， 目 标 类 和 对 比 类 必须 是 可 比较 的 ， 意 指 它们 具有 相似 的 
维 或 属性 。 例 如 ， 三 个 类 person，address 和 item 是 不 可 比较 的 。 然 而 ， 过 去 三 年 的 销售 是 可 比 























能 够 扩充 ， 处 理 多 个 可 比较 类 的 类 比较 。 例 如 ， 可 以 修改 类 特征 的 属性 泛 化 处 理 ， 使 得 泛 化 在 所 有 
































比较 类 上 同步 地 进行 。 这 使 得 所 有 类 的 属性 可 以 泛 化 到 同一 


] 象 层 。 例 如 ， 假 定 给 定 1998 和 1999 




















年 AllElectronics 的 销售 数据 ， 并 希望 比较 这 两 个 类 。 人 例如， 考虑 具有 抽象 层 city, 





province or state 和 country 的 维 Jocation。 每 个 数据 类 者 
它们 要 同步 地 都 泛 化 到 city 层 ,或 province_or_state 层 ， 
用 1998 年 Vancouver 的 销售 和 1999 年 USA 的 销售 相 比 较 ( 即 ， 









































5.4.1 类 比较 方法 和 实现 











“如 何 进 行 类 比较 ? ”一 般 地 ， 该 过 程 如 下 : 














1. 数据 收集 通过 查询 处 理 收集 数据 库 中 相关 数据 集 ， 并 将 




















比 类 。 


应当 泛 化 到 相同 的 JZocation 层 。 媚 ， 
或 country 层 。 理 想 地 ， 这 种 比较 比 
每 个 销售 数据 集 泛 化 到 不 同 的 层次 ) 
































更 有 用 。 然 而 ， 用 户 应 当 有 选择 ， 在 他 愿意 时 ， 用 他 自己 的 选择 蔡 代 这 种 自动 的 同步 比较 。 


它 划 分 成 一 个 目标 类 和 一 个 或 多 个 对 











2. 维 相 关 分 析 : 如 果 有 多 个 维 并且 和 希望 解析 类 比较 ， 则 应 当 在 这 些 类 上 进行 5. 3 节 介绍 的 维 相关 




















分 析 ， 并 且 在 后 面 的 分 析 中 仪 包含 强 相关 的 维 。 
3， 同步 泛 化 : 泛 化 在 目标 类 上 进行 ， 泛 化 到 用 户 或 专家 指 






































定 的 维 阔 值 控制 的 层 ， 产 生 主 目标 类 关 








系 / 方 体 。 对 比 类 概念 泛 化 到 与 主 目标 类 关系 / 方 体 相 同 的 层次 ， 形 成 主 对 比 类 关系 / 方 体 。 

































































































































































































































































































































































4. 导出 比较 的 提供 : 结果 类 比较 描述 可 以 用 表 、 图 或 规则 的 形式 可 视 化 。 这 种 表示 通常 包括 “对 
比 ” 度 量 ( 如 count%) ， 反 映 目 标 类 和 对 比 类 的 比较 。 如 果 需 要 ， 用 户 可 以 在 目标 类 和 对 比 类 
上 使 用 下 钼 、 上 卷 和 其 它 OLAP 操作 ， 调 整 比较 描述 。 

上 面 的 讨论 给 出 了 在 数据 库 中 挖掘 解析 类 比较 算法 的 一 般 轮 廊 。 与 挖掘 解析 类 特征 的 算法 相 比 ， 

上 面 的 算法 涉及 目标 类 人 使 得 这 些 类 可 以 在 同一 抽象 层 同 时 进行 比较 。 

“使 用 数据 方 技术 ， 类 比较 挖 抉 可 以 有 效 地 实现 吗 ?” 回 答 是 肯定 的 一 一 过 程 类 似 与 5. 3.2 小 

节 讨 论 的 挖掘 数据 特征 的 实现 。 可 以 用 个 标志 指示 一 个 元 组 是 否 代 表 目 标 类 或 对 比 类 ， 其 中 标志 

可 以 看 作 数据 方 的 个 维 。 由 于 目标 类 和 对 比 类 的 其 它 所 有 维 共享 数据 方 的 相同 部 分 ， 同步 泛 化 和 

特 化 可 以 通过 数据 方 的 上 卷 和 下 钴 自动 地 实现 。 

下 面 的 例子 挖掘 描述 Big-University 的 研究 生 和 本 科 生 的 类 比较 。 
例 5.10 挖掘 类 比较 。 假 定 我 们 想 比较 Big-University 的 研究 生 和 本 科 生 的 一 般 性 质 ， 绎 





了 属性 
该 数据 挖掘 任务 可 以 用 DMQL 表达 如 下 : 
use Big University_ DB 














66 


8 





mine comparison as 


name, gender, major, birth place, birth date, residence, phoneshll gpa。 


ad vs undergrad students” 


in relevance to name, gender, major, birth place, birth date, residence, phone#, 


gpa 
for “graduate students” 
where status in “graduate” 
versus 
Where status in ‘“undergraduate” 


“undergraduate” 


analyze count% 

from student 
让 我 们 看 看 这 个 典型 的 挖掘 比较 
首先 ， 将 查询 转换 成 两 个 关系 查询 ， 
个 是 对 比 类 工作 关系 ， 如 表 5.7 逢 























































































































述 的 数据 挖 


加 查询 如 何 处 理 。 
收集 两 个 任务 相关 的 集合 : 
表 5.8 所 示 。 这 可 以 看 作 是 构造 数据 方 ， 其 中 状态 














个 是 目标 类 工作 关系 ， 另 一 


{graduate, 











































































































undergraduate} 作为 一 个 维 ， 其 它 属 性 形成 剩 下 的 维 。 
其 次 ， 在 两 个 数据 类 上 进行 维 相关 分 析 。 分 析 后 ， 不 相关 或 弱 相 关 的 维 ， 如 name，gender, 

二 yplace，residence 和 phone#， 从 结果 类 删除 。 只 有 那些 强 相关 的 属性 包含 在 其 后 的 分 析 中 。 

青 次， 进行 同步 汉化 : 泛 化 在 目标 类 上 进行 ， 泛 化 到 用 户 或 专家 指定 的 维 闵 值 控 制 的 层 ， 产 生 
主 目标 类 关系 / 方 体 。 对 比 类 概念 泛 化 到 与 主 目标 类 关系 / 方 体 相同 的 层次 ， 形 成 主 对 比 类 关系 / 方 
体 ， 如 表 5. 9 和 表 5. 10 所 示 。 与 本 科 生 相 比 ， 研 究 生 一 般 趋 向 于 年 龄 稍 大 ，GPA 较 高 。 

表 5.7: 初始 工作 关系 研究生) 

name gender major birth_place birth_date residence phone# 

pa 

Jim Woodman M CS Vancouver,BC,Canada 8-12-76 3511,Main St., Richmand 687-4598 3.67 

Scott Lachance M CS Montreal,Que,Canada 28-7-75 345, IstAve., Vancouver 253-9106 3.70 

Laura Lee F physics Seattle,WA,USA 25-8-70 125,Austin Ave.,Burnaby 420-5232 3.83 

表 5. 8: 初始 工作 关系 (本 科 生 )》 

name gender major birth_place birth_date residence phone# gpa 

Bob Schumann M Chemistry Calgary,Alt,Canada 10-1-78 2642 Halifax St.Burnaby 294-4291 2.96 

Amy Eau F Biology Golden,BC,Canada 30-3-76 463Sunset Cres,Vancouver 681-5417 3.52 

表 5.9 目标 类 的 主 泛 化 关系 研究生) 





major 


age rang 


gpa count% 

























































































































































































































































































































































































Science 2 good 5. 53% 
Science 202% 80 good 5. 02% 
Science > 30 very_g0 5. 86% 
a od Ss 
Business > 30 i 4. 68% 
excelle 
nt 
表 5.10 对 比 类 主 泛 化 关系 (本 科 生 ) 
major age rang gpa count% 
e 
Science fair 5. 53% 
Science 16..5220 good 4. 53% 
ep 16...20 2 a 
Science 5 good 2. 32% 
ae 26...30 本 i 
Business ee excelle 0. 68% 
> 30 nt 
最 后 , 结果 类 比较 描述 以 表 、 图 和 /或 规则 的 形式 提供 。 这 种 直观 表示 包括 对 比 度量 (如 count%)， 
比较 目标 类 和 对 比 类 。 例如 ， 5. 02% 的 研究 生出 生 在 加 拿 大 , 年 龄 在 26 到 30 之 间 , GPA 为 “good”， 
而 只 有 2. 32% 的 本 科 生 具有 这 种 性 质 。 人 户 可 以 在 目标 类 和 对 比 类 上 进行 上 、 下 钴 和 其 
它 OLAP 操作 ， 调 整 最 终 描述 的 抽象 级 。 
5.4.2 类 比较 描述 的 表示 
“类 比较 描述 如 何 可 视 化 ? ”如 同类 特征 ，: an 户 提供 ， 包 括 泛 化 关 
系 、 交 叉 表 、 条 形 图 、 饼 图 、 曲 线 和 规则 。 除 罗 和 辑 规则 外 ， 类 比较 与 类 特征 所 用 的 形式 相同 。 本 小 
节 ， 我 们 讨论 以 判别 规则 的 形式 显示 类 比较 。 
与 特征 描述 类 似 , 比较 描述 中 的 目标 类 和 对 比 类 的 区 分 特性 也 可 以 用 量化 区 分 规则 量化 地 描述 。 
量化 区 分 规则 对 描述 中 每 个 泛 化 元 组 附 上 一 个 统计 兴趣 度 度量 履 权 。 
设 gy 是 一 个 泛 化 元 组 ， 而 GG 是 目标 类 。 其 中 ，g, 履 盖 目 标 类 的 某 些 元 组 。 注意 ，gs 也 可 能 覆盖 
对 比 类 的 某 些 元 组 ， 因 为 我 们 处 理 的 是 比较 描述 。g; 的 民权 是 初始 目标 类 工作 关系 中 被 9, 履 六 的 元 
组 数 与 初始 目标 类 和 对 比 类 工作 关系 中 被 % 履 盖 的 元 组 数 的 比 。 形 式 地 ，0% 关 于 C 的 民权 定义 为 








其 
元 组 数 。d 权 的 取 值 























， 如 是 目标 类 和 对 比 类 的 个 数 ，G 在 {0 ...， 











d _ weight = count(q, e CD count(q, eC.,) 


范围 为 [0. 0, 1.0] (或 [0%, 100%]) 。 








高 性 权 的 目标 类 表明 被 泛 化 元 组 代表 的 概念 主 
可 以 设 定 一 个 阔 值 ， 根 据 5 产权 或 如 5. 2. 3 小 节 介 


类 导出 。 
例 5.11 


= ”ScIence” 








在 例 


， age range = ”21.. 


路 中， 而 count (ae O) 











要 从 


标 





汪 旦 上 














5. 10 中 ， 假 定 对 泛 化 元 组 计数 ， 


25?” 








i 


AS 可 -日 


,i 











的 其 它 度量 控制 有 趣 规 则 的 显示 。 














人 








由 


5.9 和 表 
8pa = ”go00 的 计数 分 布 ， 如 表 5. 11 所 示 。 





(5. 7) 


是 类 C 中 被 q, 覆 盖 的 


和 i 低 让 权 表 明 概念 主要 从 对 比 


5. 10 得 到 泛 化 元 组 me7or 











表 5. 11: 泛 化 元 组 研究 生 和 本 科 生 的 计数 分 布 
status ma jor age r C 
ange pa OU 
graduate Scienc 2 9 
Undergra  e 25 ood 0 
duate Scienc 2 2 








e 25 ood 10 





给 定 的 泛 化 元 组 的 性 权 关于 目标 类 是 90/ (90+210) = 30%， 关 于 对 比 类 是 210/ (90+210) = 70%。 

即 ， 如 果 一 个 学 生 专 业 是 Science， 年 龄 在 21 和 26 之 间 ，g&gpa 为 “go09”， 则 基于 给 定 的 数据 ， 

他 是 研究 生 的 概率 为 30%， 是 本 科 生 的 概率 为 70%。 类 似 地 ， 也 可 以 导出 表 5. 9 和 表 5. 10 其 它 泛 化 

元 组 的 oF 权 。 口 

关于 给 定 比较 描述 的 目标 类 的 量化 区 分 规则 记 作 

VvVH, target cy7ass( 用 © condition(D [da: a weight] 

(5. 8) 

其 中 ， 条 件 由 描述 的 泛 化 元 组 形成 。 该 规则 不 同 于 类 特征 得 到 的 规则 ， 那 里 的 草 池 箭头 是 从 左 





























































































































向 右 。 
例 5.12 根据 例 5. 11 中 的 泛 化 元 组 和 计数 分 布 ， 目 标 类 graduate student 的 量化 区 分 规则 可 
以 表示 如 下 : 






































VX, status(X)=" graduate _ student" © 

major(X)="Science"' Nage _range(X)="21...25" 和 gpa(X)="go0d"  [d:30%] 
(5.9) 
图 
注意 , 对 于 一 个 对 象 在 目标 类 中 , 区 分 规则 给 出 了 充分 条 件 , 但 不 是 必要 条 件 。 例如, 规则 (5. 9) 
表明 如 果 了 满足 条 件 ， 则 了 是 研究 生 的 概率 为 30%。 然 而 ， 给 定 了 是 研究 生 ， 这 并 不 表明 了 满足 条 
件 的 可 能 性 。 这 是 因为 ， 尽 管 满足 条 件 的 元 组 在 目标 类 中 ， 其 它 不 满足 条 件 的 元 组 也 可 能 在 目标 类 

中 ， 因 为 规则 可 能 并 不 涵盖 数据 库 中 目标 类 的 所 有 实例 。 因 此 ， 条 件 是 充分 的 ， 但 不 是 必要 的 。 
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5.4.3 ”类 描述 : ”提供 特征 和 比较 











“既然 类 特征 和 类 比较 是 形成 类 描述 的 两 个 方面 ， 我 们 能 在 同一 个 表 或 同一 个 规则 中 提供 二 者 
吗 ? ”事实 上 ， 只 要 我 们 清楚 地 理解 t- 权 和 引 权 度量 ， 并 且 能 够 正确 地 解释 它们 ， 就 没有 其 它 困 
难 在 同一 个 表 里 表 示 它 们 。 让 我 们 考察 一 个 在 同一 个 交叉 表 表 示 类 特征 和 类 区 分 的 例子 。 

例 5.13 表 5.12 是 一 个 交叉 表 ， 显 示 Al11Electronics 1999 年 销售 的 TV 和 计算 机 的 总 数 〈 单 
位 : 千 台 ) 。 


















































































































































表 5. 12:， TV 和 计算 机 1999 年 销售 总 量 的 交叉 表 (单位 : 千 台 ) 

















Jocation/i TV comput both ite 
tem er m 

Europe 80 240 320 

North Amer 120 560 680 
ica 

both _ regi0o 200 800 1000 
n 




















设 furope 是 目标 类 ，WNorth_America 是 对 比 类 。 两 个 类 之 间 的 销售 分 布 的 要 权 和 aq- 权 提 供 在 
表 5. 13 中 。 根 据 该 表 ， 对 于 一 个 给 定 的 类 (例如 ， 目 标 类 burope)〉 ， 一 个 泛 化 元 组 或 对 象 〈 例 如 ， 
item=“TV”) 的 二 权 表 明 该 元 组 是 给 定 类 元 组 的 可 能 性 有 多 大 (例如 ,欧洲 的 销售 TV 占 多 大 比例 ? )。 
元 组 的 尼 权 表明 给 定 〈 目 标 或 对 比 ) 类 的 元 组 与 其 对 手相 比 ， 有 多 大 区 别 〈 例 如 ， 欧 洲 的 TV 销售 
与 北美 相 比 ， 情 况 如 何 ? ) 。 





















































表 5. 13: 与 表 5. 12 相同 的 交叉 表 ， 但 同时 显示 每 个 类 相关 的 大权 和 性 权 





Jocation TV computer both item 
/item 





























C LA d C 太 d (a t d 
ount ” 权 - 权 ount ” 权 - 权 ount ”- 权 - 权 
Europe 25 2 75 3 3 和 3 
80 % 40% 40 % 0% 20 00% 2% 
North Am 1 17 5 82 ~ 6 1 6 
erica 20 65% 60% 60 . 35% 0% 80 00% 8% 
both reg 2 20 1 8 80 1 1 让 1 
7O7 00 % 00% 00 % 00% 000 00% 00% 
例如 ，”(Europe, TV) ”的 女权 是 25%， 因 为 欧洲 的 TV 销售 量 (80, 000) 只 占 欧洲 两 种 商品 销售 量 
(320, 000) 的 25%。”(Burope, TV) ”的 民权 是 40%， 因 为 欧洲 的 TV 销售 量 (80, 000) 占 目标 类 和 对 比 度 


类 ， 即 欧洲 和 北美 TV 4 

















交叉 表 5. 
别 等 于 对 应 


Sa 
yy 二 
六 导 ， 











的 两 种 商 
例 5. 13 中 解释 的 ， 这 
“量化 特征 规则 禾 








肖 售 量 (200, 000) 的 40%。 口 











L131 


口 
[lel 























类 的 量化 特征 























征 和 区 分 规 贝 
判定 规则 如 何 表示 。 








正如 在 5. 2. 3 小 节 讨论 的 ， 

















目标 类 出 现 的 性 


上 /由 ， 














其 : 

















供 的 是 








， 每 个 条 件 
conditioni 的 概率 是 太 权 Ww 的 值 。 这 里 
正如 前 面 在 5. 4. 1 小 节 所 讨论 的 ， 
个 出 现在 目标 类 和 出 现在 对 比 类 的 比例 的 量化 度量 。 





VE target class(D © conditioni(P Ld:mi]v... 
该 规则 指出 ， 如 果 了 满足 condition;,， 则 了 在 target clJass! 


7 在 位 ,..., 避 中。 


一 个 给 定 











对 于 每 个 条 件 
量化 描述 规则 形 如 























类 的 量化 特征 规则 和 量化 
， 显 示 相 关联 的 要 权 和 尼 权 ， 并 且 











它 提供 


表示 目标 类 的 一 个 性 














的 计数 度量 遵守 交叉 表 
和 两 个 地 区 中 的 总 和 。 然 
些 度量 的 语义 都 不 同 于 计数 。 
1 量化 区 分 规则 可 以 一 起 用 一 个 规则 的 形式 表示 吗 ?”” 回 答 
规则 和 量化 区 分 规则 可 以 结合 在 
| 相关 联 的 万 权 和 cd 权 。 为 看 清 





量化 特征 规则 提 代 
tT 了 一 种 概率 度量 。 
VYh target class(®D SS condition(D Lt:iwilv.. 








上 /人 。 


E， 了 在 {1,... 


的 一 般 性 质 : 


























A 而 ，t- 权 和 王权 度量 不 遵守 这 一 性 质 。 





对 于 计数 ， 每 行 和 每 列 计数 值 的 和 分 


正如 我 们 在 








是 可 以 





一 起 ， 形 成 该 类 的 量化 











述 规则 ， 














青 如 何 

















它 显示 与 对 应 的 特 
做 ， 证 我 们 快速 地 回顾 一 下 量化 特征 规则 和 量化 


同一 个 




















这 种 规则 的 形式 为 


该 规则 指出 ， 如 果 了 在 target class 中 ， 则 了 满足 


,由 中 。 

















一 个 量化 区 分 规则 提供 了 


区 分 规则 可 按 如 下 方法 结 








t 了 给 定 目标 类 的 必要 条 件 








， 因 












































2 
口 ， 














VL target class(®D SO condition (PD ltimw, dw] v... 





对 于 目 




















该 规则 指出 ， 对 于 从 1 到 ww， 了 在 target class! 
满足 condition;， 则 在 target class 中 的 可 外 
例 5.14 将 例 5. 13 的 交叉 表 表 5. 13 转换 成 量化 描述 规则 形式 的 类 描述 是 直接 了 当 


标 类 Burope, ， 其 量化 描述 规则 为 








性 是 


XE Wi’o 

















VX,location(X )=" Europe" 人心 
(item(X)="TV")[t:25%,d :40%]v (item(X)="computer" )[t:75%,d :30%] 





该 规则 表明 , 对 于 1999 年 47781ectronics 的 TV 和 计算 机 销售 ， 如果 一 个 这 样 
1 该 商品 是 TV 的 概率 为 25%， 而 是 计算 机 的 概率 为 75%。 
则 40% 的 TV 在 
企 欧 洲 。 





出 ， 贝 
的 销售 ， 
售 ，30% 的 销售 












































了 欧洲 销售 (1 























此 ， 我 们 




















目标 类 


形成 
(2) 在 给 定 的 类 和 条 件 2 


出 60% 的 TV 在 北美 销售 ) 。 














Cd- 权 值 




















为 对 于 每 个 可 生 


.Vv copgTtTomy (用 [zt 由 ] 


s 的 一 个 充分 条 件 
这 种 规则 的 形式 为 

v_ condition(D [d:m,] 
的 可 能 性 ) 为 所 。 这 


一 个 量化 描述 规则 : 


在 


(5. 10) 





， 因 为 它 提 




















1 
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(1) 

















间 使 


v condition,(D 





， 则 子 满足 conqition; 的 可 能 性 是 











个 


男 一 方面 ， 如 果 我 们 比较 欧洲 
此 外 ， 关 于 计算 机 销 


的 商品 在 欧洲 售 


j 双 向 箭头 。 即 ， 


[ tim, d: mw 


(5. 11) 
Wis 而 X 


的 。 例 如 ， 





(5. 12) 








1 和 北美 





5.5 ”在 大 型 数据 库 中 挖掘 描述 统计 度量 


在 本 章 的 前 面 ， 我 们 讨论 了 流行 的 度量 〈 如 count，sum 和 average) 下 的 类 描述 。 关 系数 据 库 
系统 提供 了 五 种 内 部 聚集 函数 : countO ，sunO0，avgO，maxO 和 min(0 。 这 些 函数 在 数据 方 中 也 
可 以 有 效 地 《以 渐 增 和 分 布 的 方式 ) 计算 。 在 多 维 数据 的 描述 挖掘 中 ， 包 含 这 些 函 数 作为 基本 度量 
并 不 成 问题 

然而 ， 对 于 许多 数据 挖掘 任务 ， 用 户 更 希望 了 解 关 于 数据 的 中 心 趋势 和 发 散 特征 。 中 心 趋 势 的 
度量 包括 wean，median，mode 和 midrange， 而 数据 发 散 度 量 包 括 ouart77es，ovt77ers，rarTanrce 
和 其 它 统 计 度 量 。 这 些 描 述 性 统计 对 于 理解 数据 的 分 布 很 有 帮助 。 这 些 度量 在 统计 界 已 广泛 研究 。 
然而 ， 从 数据 挖 据 的 角度 ， 我 们 需要 考察 在 大 型 多 维 数 据 库 中 如 何 有 效 地 计算 它们 。 











































































































































































































5.5.1 度量 中 心 趋势 











数据 集 最 常用 、 最 有 效 的 “中 心 ”数值 度量 是 算术) 平均 值 。 设 亏 , 如 ... ,加 是 值 或 观测 的 
集合 。 该 值 集 的 平均 值 是 


















































这 对 应 于 关系 数据 库 系统 提供 的 内 部 聚集 函数 average (SQL 中 ,avg 0) ) 。 在 大 部 分 数据 方 中 ， 
sum 和 count 在 预计 算 时 保存 。 这 样 ， 使 用 公式 average = sum/count 导出 average 是 直接 了 当 的 。 
有 时 ， 集 合 中 每 个 值 率 与 一 个 权 WwW 相关 联 ，7 = 1,...， n。 权 反映 对 应 的 值 的 意义 、 重 要 性 或 
出 现 频 率 。 在 这 种 情况 下 ， 我 们 可 以 计算 



































这 称 为 加 权 算 术 平 均 或 加 权 平 均 。 
在 第 2 章 ,度量 被 定义 为 代数 的 ,如 果 它 能 由 分 布 聚 集 度量 计算 。 由 于 avg () 可 以 被 sumO /count () 
计算 ， 其 中 ，sum() 和 count 0 都 是 分 布 聚集 度量 ， 能 够 以 分 布 方式 计算 ， 因 而 avg () 是 代数 度量 。 
可 以 验证 加 权 平 均 也 是 代数 度量 。 

尽管 平均 值 是 我 们 用 于 描述 数据 集合 最 有 用 的 单个 量 ， 但 它 不 是 唯一 的 ， 并 非 总 是 最 好 的 度量 
数据 集合 中 心 的 方法 。 对 于 倾斜 数据 ， 数 据 中 心 较 好 的 度量 是 中 位 数 办 假定 数据 集合 的 值 是 数值 
有 序 的 。 如 果 值 的 个 数 了 是 奇数 ， 则 中 位 数 是 有 序 集 合 的 中 间 值 ， 否 则 《〈 即 ， 如 果 了 是 偶数 ) ， 中 
位 数 是 中 间 两 个 数 的 平均 值 。 
根据 第 2 章 度量 的 分 类 ， 中 位 数 既 不 是 分 布 度量 ， 也 不 是 代数 度量 一 一 它 是 一 个 整体 度量 。 即 ， 
它 不 能 用 以 下 方法 计算 : 将 值 的 集合 任意 地 划分 成 小 的 子 集 ， 独 立地 计算 它们 的 中 位 数 ， 然 后 合并 
每 个 子 集 的 中 位 数 。 相 反 ，count 0 ,sum ,max() 和 min(0 可 以 用 这 种 方式 计算 〈 是 分 布 度量 ) ， 因 
而 比 中 位 数 容易 计算 。 

尽管 在 大 型 数据 库 中 不 容易 计算 准确 的 中 位 数值 ， 但 是 可 以 有 效 地 计算 一 个 近似 的 中 位 数 。 例 
如 ， 对 于 分 组 数据 ， 由 插值 得 到 的 中 位 数 由 下 式 给 出 



















































































































































































































































































证 El 
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median 


median = 万 +( 


(5. 15) 

其 中 ,是 包含 中 位 数 的 较 低 的 类 边界 〈 即 ， 最 小 值 )，n 是 数据 中 值 的 个 数 ，(5 ,是 低 于 中 
位 数 类 的 所 有 类 的 频率 和 ，Ewwiws 是 中 位 数 类 的 频率 ， ee 

另 一 种 中 心 趋势 度量 是 模 。 数 据 集合 的 模 是 集合 中 出 现 频率 最 高 的 值 。 可 能 最 高 频率 对 应 多 个 

不 同 值 ， 导 致 多 个 模 。 具 有 一 个 、 两 个 、 三 个 模 的 数据 集合 别称 为 音 模 态 、 具 

有 两 个 或 更 多 模 的 数据 集合 是 多 模 态 。 在 男 一 种 极端 情况 下 ， 如 果 每 个 数据 值 仅 出 现 一 次 ， 则 它 没 

有 模 。 












































































































































对 于 适度 倾斜 〈 不 对 称 的 ) 的 单 模 态 频率 曲线 ， 我 们 有 下 面 的 经 验 关系 


Mmean — mode = 3 x (mean -~ median) 

















这 意味 如 果 平 均值 和 1 





中 列 数 ， 即 数据 集合 的 最 大 和 最 小 值 的 平均 值 ， 可 以 月 





























的 聚集 函数 max 0 和 min 9 计算 中 列 数 是 平凡 的 。 





5.5.2 ”度量 数据 的 发 散 











数值 数据 趋向 于 发 散 的 程度 称 为 数据 的 发 散 度 或 方差 ,数据 发 散 度 的 最 党 
于 四 分 位 数 )、 中 间 四 分 位 数 区间 和 标准 偏差 。 











形 方法 。 














盒 图 














四 分 位 数 、 局 外 者 和 盒 图 





数值 序 下 的 数据 集合 的 第 个 百 分 位 数 是 具有 如 








于 Xx。 在 
除 ! 




















所 敌 盖 的 范围 。 





我 们 应 当 明白 ， 对 于 
两 边 的 分 布 是 不 等 的 。 因 上 
































(5. 16) 





位 数 已 知 ， 适 度 倾斜 的 单 模 态 频率 曲线 的 模 容 易 计 算 。 














的 绘制 (展现 


























75 个 百 分 位 数 。 














四 分 位 数 与 





该 距离 称 为 中 间 四 分 位 数 区 间 (74R) ， 定 义 为 














外 者 的 党 
因 
最 低 数据 值得 到 。 这 称 














测 值 组 成 ， 按 以 下 次 序 写 出 inimun, 
分 布 的 一 种 流行 的 直观 表示 是 盒 图 。 在 盒 图 中 : 
分 位 数 上 ， 使 得 盒 的 长 度 是 中 间 四 分 位 数 














AI 





位 数 不 到 1. 5x 


之 内 的 最 极端 的 观测 值 处 终止 ， 剩 下 的 情况 个 别 绘 出 。 盒 







































































作 五 数 概括 。 分 布 的 五 数 概括 
W, 





典型 地 ， 盒 的 端点 在 四 
中 位 数 用 盒 内 的 线 标记 。 
盒 外 的 两 条 线 〈 称 作 胡 须 ) 延 人 


768 时， 胡须 扩 




































































上 ， 还 提供 两 个 四 分 位 数 和 和 8， 以 及 
j 规 则 是 : 挑 出 落 在 至 少 高 于 第 三 个 
为 Q、M 和 Qs 不 包含 数据 端点 的 信 


四 分 位 数 或 低 了 


























司 外 者 。 在 














展 到 最 高 和 最 低 观 测 值 。 








给 出 在 给 定 








5. 5 








们 看 到 销售 商品 
根据 与 5. 5. 1 小 市 中 
于 大 型 数据 集 的 挖掘 
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科 数 分 析 的 类 似 理 1 


名 














合 
JIL 











妈 的 有 效 计算 ， 甚 至 近似 的 盒 




















图 可 以 




















日 于 度量 数据 集合 的 中 心 趋势 。 使 用 SQL 




















如 下 性 质 的 值 x， 数据 项 的 百 分 之 £ 在 x 
中 位 数 N (上 一 小 节 讨 论 过 ) 上 或 低 于 WN 的 值 对 应 于 第 50 个 百 分 位 数 。 

位 数 外 ， 最 常用 的 百 分 位 数 是 四 分 位 数 。 第 一 个 四 分 位 数 记 作 @， 是 第 25 个 百 分 位 数 ， 第 
三 个 四 分 位 数 记 作 &， 是 第 
某 种 指示 。 第 一 个 和 第 三 个 四 分 位 数 之 间 的 


位 数 一 起 给 出 | 
E 离 是 分 布 的 一 种 简单 度量 ， 它 给 出 被 数据 的 中 间 一 半 


局 外 者 值 ) 




















度量 是 五 数 概 括 ( 基 
] 作 一 种 有 用 的 图 
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F 或 低 















































心 、 发 散 和 分 布 形状 的 








ICOR = 0; — 0 
(5. 17) 





述 倾斜 分 布 ， 单 个 分 布 数值 度量 (如 76@8) 不 是 非常 有 用 的 。 倾 和 斜 分 布 























FP 位 数 V 信 息 更 丰富 。 
第 一 个 四 分 位 数 1. 5x7681 处 的 值 。 

息 ， 分 布 形 状 的 更 完整 的 概括 可 以 通过 同时 也 提供 最 高 和 
中 位 数 如 四 分 位 数 @, 和 @， 最 小 和 最 大 观 


及 WY; Maximum, 


申 到 最 小 (Ninimum) 和 最 大 (aximum) 观测 值 。 
当 处 理 数量 适中 的 观测 值 时 ， 值 得 个 别 绘 出 潜在 的 


合 
mL 

















个 识别 局 





区 间 7QR。 




















图 中 做 ， 仅 当 这 些 值 超过 四 分 





来 


的 时 间 段 ， 在 Al1Electronics 的 4 个 分 店 销售 的 商品 单价 的 盒 氏 
的 中 位 数 是 $80， 儿 是 $60， 多 是 $100。 
， 我 们 可 以 断定 和 和 是 整体 度量 ， 
图 都 是 令 人 感 兴趣 的 。 


否则 ， 胡 须 在 在 出 现在 四 分 位 数 的 1. 5x768 








比较 若干 可 比较 的 数据 集 。 图 
图 。 对 于 分 店 1， 我 























7Q4R 也 同样 。 对 





he 
180.0 
160.0 
140.0 
120.0 


100.0 


单价 5$) 


80.0 


60.0 


40.0 


20.0 





分 店 1 分 店 2 分 店 3 分 店 4 
5.5: 在 给 定 的 时 间 段 ，AllElectronics 的 4 个 分 店 销售 的 商品 单价 的 盒 图 




















方差 和 标准 差 
7 个 观测 值 x xz, ...， 石 的 方差 是 








2 1 一 \2 1 = 2 1 2 
$ ts 7) i > ] 
(5. 18) 
标准 差 s 是 方差 s 的 平方 根 。 
标准 差 s 作为 发 散 的 度量 ， 其 基本 性 质 是 : 
国 ”$s 度量 关于 平均 值 的 发 散 ， 仅 当选 择 平均 值 作为 中 心 度量 时 使 用 。 
田 。” 仅 当 不 存在 发 散 时 ， 即 当 所 有 的 观测 值 都 相同 时 ，s = 0。 和 否则 ，s > 0。 
注意 ， 方 差 和 标准 差 是 代数 度量 ， 因 为 n (是 SQL 的 count () ) ,Zz (是 天 的 sumn0 ) ， 而 2x7 
(是 如 的 sum() 都 可 以 以 任何 划分 进行 计算 ， 然 后 合并 形成 (5. 18) 式 。 这 样 ， 两 个 度量 的 计算 在 
大 型 数据 库 都 是 可 规模 化 的 。 
表 5.14: 在 477B1ectron7cs 的 一 个 分 店 销售 的 商品 单价 数据 


























































































































单价 ($) 商品 销售 量 
40 275 
43 300 
47 250 
74 360 
75 515 
78 540 
115 320 
117 270 
120 350 








5.5.3 ”基本 统计 类 描述 的 图 形 显示 


除 本 章 前 面 介 














的 条 形 图 、 饼 图 和 线 图 之 外 ， 还 有 一 些 和 常用 的 图 用 于 显示 数据 汇总 和 分 布 ， 这 


























包括 直方 图 、 分 位 数 图 、q-q 图 、 散 布 图 和 局 部 回归 (loess) 曲线 。 













































































直方 图 ， 或 频率 直方 图 是 一 种 单 变量 图 形 方法 。 直 方 图 由 一 组 矩形 组 成 ， 这 些 算 形 反 映 类 在 给 








定数 据 中 出 现 的 计数 或 频率 。 每 个 矩形 的 基 在 水 平 轴 上 ， 中 心 是 “类 ”标记 ， 基 的 长 度 等 于 类 的 宽 
度 。 通 常 ， 类 的 宽度 是 一 致 的 ， 类 定义 为 分 类 属性 的 值 ， 或 离散 化 连续 属性 的 等 宽 区 间 。 在 这 种 情 
况 下 ， 每 个 矩形 的 高 等 于 它 代表 的 类 的 计数 或 相对 频率 ， 并 且 也 称 直方 图 为 条 形 图 。 连 续 属 性 类 也 



























































可 以 用 不 等 宽 的 区 间 定 义 。 在 这 种 情况 下 ， 对 于 给 定 的 类 ， 类 的 宽度 等 于 区 间 的 宽度 ， 而 和 矩形 的 高 
是 类 的 密度 《〈 即 ， 类 的 计数 或 相对 频率 除 以 类 的 宽度 ) 。 构 造 直 方 图 的 划分 规则 在 第 3 章 已 讨论 。 





数量 。 直 方 图 至少 











图 5. 6 给 出 表 5. 14 数据 的 直方 图 ， 其 中 ， 类 定义 成 等 宽 的 ， 代 表 增 量 $20， 频 率 是 商品 的 销售 


























一 个 世纪 了 ， 是 一 种 广泛 使 用 的 单 变量 图 形 方法 。 然 而 ， 对 于 比较 单 变量 观测 





组 ， 它 可 能 不 如 分 位 数 图 、q-a 图 和 盒 图 方法 有 效 。 
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图 5.6: 表 5. 14 数据 集 的 直方 图 

















分 位 数 图 是 一 种 观察 数据 分 布 的 简单 有 效 的 方法 。 首 先 ， 它 显示 所 有 的 数据 (允许 用 户 评 估 总 





的 情况 和 不 寻常 的 出 现 ) 。 其 次 ， 它 绘 出 了 分 位 数 信息 。 此 步 使 用 这 种 机 制 与 百 分 位 数 计算 稍微 有 















































点 不 同 。 设 xn (i = 1,...， 吃 是 由 小 到 大 排序 的 数据 ， 使 得 x 是 最 小 的 观测 值 ， 而 x 是 最 大 的 。 
每 个 观测 值 x 与 一 个 百分数 了 ;配对 ， 指 出 大 约 100 了 ; % 的 数据 小 于 等 于 xn。 我 们 说 “大 约 ”， 















































因为 可 能 没有 一 个 精确 的 小 数值 7 ;， 使 得 数据 的 了 名 小 于 或 等 于 x。 注 意 ，0. 25 分 位 数 对 应 于 


























Q，0. 50 分 位 数 对 应 于 中 位 数 ， 而 0. 75 分 位 数 对 应 于 Qi;。 设 


i—0.5 
fi= 


n 
这 些 数 由 1/2n 











《 稍 大 于 0) 到 1-1/2n( 稍 小 于 1) ， 以 相同 的 步 长 1/2 递增 。 在 分 位 数 图 中 ， 














xj 对 着 了 ; 画 出 。 这 使 得 我 们 可 以 基于 分 位 数 ， 比 较 不 同 的 分 布 。 例 如 ， 给 定 两 个 不 同时 间 段 销售 








号 











数据 的 分 位 数 图 ， 我 们 一 眼 就 可 以 比较 它们 的 Q:， 中 位 数 ，Q8， 以 及 其 它 7; 值 。 图 5.7 给 出 表 5. 14 


























单价 数据 的 分 位 数 图 。 
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[value 














图 5.7 表 5.14 单 价 数据 的 分 位 数 图 


分 位 数 -分 位 数 图 ， 或 ga-q 图 对 着 另 一 个 的 对 应 分 位 数 ， 绘 制 一 个 单 变 量 分 布 的 分 位 数 。 它 是 一 
种 强 有 力 的 直观 表示 工具 ， 使 得 用 户 可 以 观察 从 一 个 分 布 到 另 个 是 否 有 移 位 。 

假定 对 于 变量 单价 ， 我 们 有 两 个 观测 集 ， 取 自 两 个 不 同 的 分 店 。 设 Xp，...，Xw 是 取 自 第 一 个 
分 店 的 数据 ，yw，. ..，yw 是 取 自 第 二 个 分 店 的 数据 ， 每 组 数据 都 已 按 递 增 序 排序 。 如 果 w=n( 即 ， 
每 个 集合 中 的 点 数 相 等 ) 则 我 们 简单 地 对 着 x» 画 >， 其 中 ，y， 和 x 都 是 它们 的 数据 集 的 第 (7 - 
0. 5) /a 个 分 位 数 。 如 果 ww 《< n (第 二 个 分 店 的 的 观测 值 比 第 一 个 少 ，， 则 可 能 只 用 个 点 在 9-g 图 
中 。 这 里 ，7o 是 地 数据 的 第 (7 - 0. 5) /nm 个 分 位 数 ， 对 着 x 数据 的 第 (7 - 0. 5) /nm 个 分 位 数 画 。} 
型 地 ， 该 计算 涉及 插值 。 
图 5.8 给 出 在 给 定 的 时 间 段 ，A11Electronics 的 两 个 不 同 分 店 销售 的 商品 单价 数据 的 分 位 数 - 
分 位 数 图 。 对 于 每 个 数据 集 ， 左 下 角 的 点 对 应 相同 的 分 位 数 0.03。 (为 帮助 比较 ， 我们 也 画 了 一 条 
直线 ， 它 代表 对 于 给 定 的 分 位 数 ， 两 个 分 店 的 单价 相同 的 情况 。 此 外 ， 加 黑 的 点 分 别 对 应 Q、 中 位 
数 和 Qs。) 例如 ， 我 们 看 到 ， 在 分 位 数 0.03， 在 分 店 1 销售 的 商品 单价 比分 店 2 稍 低 。 换 言 之 ， 
在 分 店 1 销售 的 商品 3% 低 于 或 等 于 $40， 而 在 分 店 2 销售 的 商品 3% 低 于 或 等 于 $42。 在 最 高 分 位 数 ， 
我 们 看 到 分 店 2 的 商品 单价 稍微 低 于 分 店 1。 一 般 地 ， 我 们 注意 到 分 店 1 的 分 布 相对 于 分 店 2 有 一 
个 移 位 ， 分 店 1 销售 的 商品 单价 趋向 于 比分 店 2 低 。 
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图 5.8 两 个 不 同 分 店 的 单价 数据 的 分 位 数 -分 位 数 图 
散布 图 是 确定 两 个 量化 变量 之 间 看 上 去 是 否 有 联系 、 模 式 或 趋势 的 最 有 效 的 图 形 方法 之 一 。 为 
构造 散布 图 ， 每 个 值 对 视 为 一 个 代数 坐标 对 ， 并 作为 一 个 点 画 在 平面 上 。 散 步 图 是 一 种 有 用 的 探查 


方法 ， 一 上 腿 就 看 出 双 变 量 数据 在 整个 平面 上 如 何 分 布 ， 例 如 ， 点 的 聚 类 、 例 外 者 等 。 图 5. 9 给 出 表 
5. 14 中 数据 的 散布 图 。 
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图 5.9 表 5.14 中 数据 集 的 散布 图 


loess 曲线 是 另 一 种 重要 的 探查 图 形 工具 ， 它 添加 一 条 平滑 曲线 到 散布 图 ， 以 便 更 好 地 理解 依 
赖 模式 。loess 一 词 是 “局 部 回归 ” (local regression) 的 缩写 。 图 5. 10 给 出 表 5. 14 中 数据 的 
loess 曲线 。 




































































Items sold 


为 了 拟 合 loess 














图 5. 10 
曲线 ， 需 要 设置 








是 任意 正 数 〈 典 型 值 











表明 可 








则 局 部 线性 拟 合 
得 更 好 ， 





5.6 讨论 


我 们 已 经 为 挖 























就 足够 了 (入 = 1) 。 
它 遵 循 数据 模式 并 且 保持 局 部 平滑 性 。 
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表 5.14: 
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SU 
Unit price ($y 


数据 集 的 loess 曲线 
被 回 


























归 拟 合 的 多 项 式 的 阶 





]20 140 


入 。Q 可 以 





TT 个 拟 合 ， 
能 平滑 ， 而 不 过 份 破坏 数据 ， 
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四 大 型 数据 库 中 的 概念 或 类 














的 增 量 和 





行 挖 











时 的 实现 ， 概念 






































5.6.1 概念 描述 : 与 典型 的 机 器 学 习 方 法 比较 





本 草 ， 我 们 介 

















了 挖 据 大 型 数据 库 1 











概念 








述 的 面向 数据 库 的 方法 。 

















但 可 能 过 份 适 合 
果 数 据 的 潜在 模式 具有 “温和 的 ”曲率 ， 而 没有 局 
然而 ， 如 果 有 局 部 极 大 和 极 小 ， 


它 尽 可 


潜在 的 模式 。 曲 线 随 w 增 大 而 变 得 平滑 。 然 而 ， 可 能 出 现 拟 合 不 足 ， 
能 “丢失 ”数据 模式 。 如 果 a 大 小 ， 跟 踪 了 潜在 的 模式 ， 
部 “摆动 ”可 能 不 被 数据 支持 。 














数据 ， 曲 线 中 的 
部 极 大 和 极 小 
二 次 拟 合 (入 = 2) 一 般 


dl 
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述 提出 了 一 些 可 规模 化 的 方法 。 本 节 ， 我 们 讨论 关 
于 这 些 描述 的 相关 问题 。 包 括 基于 数据 方 和 面向 属性 归纳 与 典型 的 机 器 学 习 方法 的 比较 ， 概 念 
述 的 兴趣 度 度量 。 





述 























这 些 方法 包括 基于 数据 方 


的 和 面向 属性 归纳 的 概念 描述 数据 泛 化 方法 。 自 80 年 代 以 来 ， 机 器 学 习 界 已 经 提出 了 一 些 有 影响 





的 概念 描述 方法 。 典 型 的 概念 















































标定 类 1 


| 练 样本 集 上 运行 


已 中 





ea eta 





或 学 习 描述 


类 的 假定 。 

















主 山 








“示例 学 习 方法 
挖掘 方法 
例 学 习 算 法 中 ， 








假定 上 进行 泛 化 ,并 
通常 ， 

















么 对 于 解析 特征 挖 气 和 比较 挖 


和 5.4 节 ) 。 





因此 ， 











其 次 ， 概 念 ; 
对 于 传统 的 机 器 学 习 


小 。 























的 哲学 体系 不 同 ， 
分 析 样 本 划分 成 两 个 集合 : 
随机 地 选取 一 个 正 样 本 ， 














一 般 地 ， 这 些 算法 在 概念 或 


0 机 器 学 习 和 数据 

















它们 关于 概念 








并 用 
使 用 负 
































述 问 题 的 基本 假定 也 不 同 。 垦 
正 样本 和 负 样 本 ， 








分 别 代表 目标 类 和 对 比 类 





:机 器 学 习 开 发 的 大 部 分 示 
学 习 过 程 











它 形 成 描述 该 类 对 象 的 一 个 假定 。 然 后 ， 学 习 过 程 
样本 进行 特 化。 一 般 地 ， 扣 
数据 库 不 显 式 存放 和 否定 数据 。 这 样 ， 特 化 时 就 没有 显 式 说 明 的 负 样 本 可 用 。 这 就 是 为 什 





结果 假定 涵 




















大 部 分 面 





方法 ， 数 据 样 








掘 要 收集 不 在 目标 类 《〈 正 样本 ) 中 的 可 比较 数据 ， 
向 数据 库 方 法 倾向 基于 泛 化 。 尽 管 它们 多 半 提 供 
但 该 操作 的 实现 本 质 上 是 回溯 泛 化 过 程 。 
描述 的 机 器 学 习 和 面向 数据 库 的 方法 之 间 的 另 一 个 主 
本 集 通常 比 使 用 面 

















因此 ， 对 于 机 器 学 习 方法 ， 容 易 找 到 涵盖 所 有 的 





考虑 存放 在 现实 世 田 


样本 ， 而 不 涵盖 任何 负 样 本 的 规则 或 模式 。 











数据 库 ， 























数据 的 大 部 分 ， 最 大 限度 地 区 分 


























盖 所 有 的 正 村 


要 不 同 是 
向 数据 库 技 术 进行 数据 分 析 所 用 的 数据 样本 集 
正 样 本 ， 而 不 涵盖 任何 负 样 本 的 措 
的 数据 的 发 散 性 和 数量 巨大 ， 这 种 数据 分 析 多 半 不 会 导出 涵盖 所 有 正 
我 们 可 以 期 望 找到 的 是 一 组 特性 或 规则 ， 
正 样 本 和 人 负 样本 。 这 也 可 以 看 作 上 


使 用 其 余 正 样本 在 
日 不 涵 








本 ， 




















用 作 反 面 数据 (5. 3 
下 钻 〈 特 化 ) 操作， 

















| 练 样本 集 的 大 小 。 














述 。 








它们 涵盖 正 类 


率 分 布 。 

















第 三 ， 关于 所 
性 删除 和 属性 
































结 点 ， 这 些 结 点 代表 








抽象 屋 ， 给 定 训练 样本 的 














男 一 方面 ， 在 泛 化 的 早期 阶段 ， 使 月 
马 性 或 维 上 一 致 地 进行 泛 化 。 本 质 上 ， 这 种 方法 将 注意 力 聚 
闻 定 义 为 与 j 


FE 
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称 作 分 解 解释 等 




















间 ，:; 








这 里 ， 解 释 空 








的 泛 化 方法 ， 机 器 学 习 和 面向 数据 库 的 方法 还 





泛 化 作为 它们 的 主要 泛 化 技术 使 月 
个 元 组 进行 泛 化 ， 而 面向 数据 库 的 方法 逐个 属性 〈 或 整个 维 

在 机 器 学 习 方法 的 逐个 元 组 泛 化 策略 中 ， 
有 正 样 本 一 致 ， 而 与 负 样 本 都 不 一 致 的 最 
由 每 个 训练 样本 泛 化 导出 的 可 能 概念 。 


日 。 考 虑 训练 样本 集 是 元 组 的 集合 。 
) 进行 泛 化 。 
一 次 考察 一 个 训练 样本 ， 导 出 泛 化 概念 。 


存在 差别 。 





















































两 利 





特殊 的 假定 (或 概念 描述 ) ， 算 法 必须 搜索 空 























| 于 元 组 的 不 同属 




















提高 计算 性 能 。 假 





注意 ,在 泛 化 
可 能 是 多 产 的 ， 因 








定 用 于 泛 化 的 概念 
间 大 小 为 p x k。 与 此 相 比 ， 对 于 相同 的 
的 早期 阶段 ,探查 给 定 大 量 元 组 的 不 
为 这 些 组 合 在 进 一 Pt 


分 层 有 个， 
及 念 树 


盆 索 结 点 数目 将 涉及 大 量 的 可 能 组 合 。 
日 逐个 属性 策略 的 数据 库 方 法 对 数据 关系 的 所 有 元 组 在 每 个 
个 属性 ， 而 不 是 属 
分 解 解释 空 
每 个 概念 分 层 中 有 p 个 结 点 。k 个 分 解 的 解释 空 























焦 在 
本 一 致 的 假定 子 集 。 











| 练 样 




















， 被 机 器 学 习 方 法 搜索 的 未 分 解 的 解释 空 











成 相对 较 小 的 关系 时 才 需 要 探查 ， 
与 其 它 机 器 学 习 算法 相 比 ， 面 向 属 














E 如 本 章 介 2 





司 属性 - 值 条 件 的 许多 可 
































台 E 
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能 组 合 ， 





方法 确实 都 将 属 
机 器 学 习 方 法 逐 


为 形成 与 所 
= 间 中 的 每 个 


性 可 能 泛 化 到 不 同 的 


组 合 上 。 这 
间 可 以 显著 地 





x 间 为 过 。 
这 种 算法 不 








不 同 的 可 能 组 合 




















志 





性 的 方法 另 一 个 明 




















据 库 操作 的 集成 。 与 其 
作 ， 如 选择 、 连 接 、 投 影 
发 现 2 人 Y 共 元 组 ) 。 


它 已 有 














(提取 任务 相 
这 些 关 系 操作 是 

















面向 属性 的 方法 不 仅 有 效 ， 而 
算法 。 通 过 结合 稀疏 方 技术 、 




















且 易 于 输 
各 种 方 计 算 方 法 、 














数据 库 查询 处 型 














的 不 利用 数据 库 机 制 的 学 习 算法 不 同 ， 面 
日 关 数据 和 


出 到 其 它 关 系 系统 。 























同属 性 





删除 属性 ) 元 组 置换 《 


的 面向 数据 库 的 方法 做 的 那样 。 
显 的 优点 是 数据 挖掘 过 
归纳 基本 采 
攀升 概念 树 ) 和 排序 〈 在 类 
面向 集合 的 ， 并 通常 在 大 部 分 数据 库 系 统 中 是 优化 的 。 这 样 ， 











pa 





有 在 关系 先 被 泛 化 
十 程 与 面向 集合 的 数 














这 些 解释 同村 














技术 更 优化 的 技术 。 这 样 ， 


学 习 技 术 的 高 性 能 是 在 预料 之 中 的 。 





5.6.2 ”概念 描述 的 增 量 和 并 行 挖掘 


给 定数 据 库 中 的 大 量 数据 ， 








结果 挖 据 。 对 于 许多 种 类 的 大 型 数据 库 或 数据 仓库 挖掘 ， 
述 算法 ， 进 行 增 量 数据 挖掘 是 直接 了 当 的 。 
的 归纳 ， 用 于 增 量 数据 挖 据 ? ” 
进行 面向 属性 的 ! 








扩充 面向 数据 库 的 概念 

“我 们 如 何 扩充 面向 属性 
一 批 新 元 组 A28 插入 数据 库 时 ， 
对 应 属性 相同 的 概念 
然后 ， 在 AD8 上 导 









































维 在 相同 的 抽象 层 上 。 并 ALAR 成 为 新 的 泛 化 关系 不 。 如 果 需 要 ， 可 以 按照 有 
增 量 删除 可 以 用 类 似 的 方法 进行 。 细 节 留 作 习 题 。 


如 维 泛 化 或 特 化 。 

















1 相 


MPAN? 


基于 相同 的 ) 
归纳 可 以 通过 从 大 量 
行 执行 归纳 ， 然 后 合 j 





























总 结 


AN 一 口 


5.7 








数据 挖掘 可 以 分 成 














述 式 数据 挖掘 











ee 























概念 (或 类 ) 描述 由 特征 和 
汇总 并 将 一 
概念 特征 有 两 种 一 般 方法 
























































在 处 到 


适用 了 














基于 

















用 关系 操 


数据 方 的 泛 化 


索引 和 存 取 技术 ， 基 于 数据 方 的 方法 使 用 比 传统 的 














更 可 取 的 是 渐 增 地 更 新 数据 挖 ] 
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量 数 据 挖掘 是 一 个 
































可 以 在 ADB 

















出 的 泛 化 关系 AR 容 易 合 











到 泛 化 关系 忆 





可 以 研究 概念 描述 的 选 样 方 法 、 











因 











诱 人 的 目 


段 定 泛 化 关系 中 存放 在 数据 库 中 。: 
归纳 ， 将 属性 泛 化 到 与 泛 化 关系 R 的 
层 。 相 关 的 聚集 信息 ， 如 计数 、 求 和 等 可 以 通过 将 泛 化 算法 用 于 ADB 来 计算 。 

为 有 和 ADB 具有 相同 的 维 ， 


























和 预测 式 数据 挖 气 
述 给 定 的 任务 相关 数据 集 ， 
Hf 比较“ 区分) 组成。 
个 称 作 时 类 妆 据 集 与 称 作对 比 燃 的 其 它 


量 任务 相关 数据 中 选取 一 个 数据 子 集 进行 ， 或 者 先 在 任务 相关 数据 集 的 分 划 
泛 化 结果 。 


大 型 数据 集 时 ， 面 向 数据 库 的 算法 获得 优 于 机 器 


所 结果 ， 而 不 是 从 每 次 数据 库 更 新 的 











标 。 





幸而 ， 























il 








并 且 每 个 





昌 户 说 明 对 兄 进 行 微调 ， 
并 行 算法 和 分 布 式 算法 。 例 如 ， 面 向 属性 的 





上 并 




















提 任 
前 者 汇总 并 描述 称 
巴 数 据 集 相 区 别 。 

















基于 数据 方 OLAP 的 方法 和 面向 属性 归纳 方法 。 
或 维 泛 化 的 方法 。 面 向 属性 归纳 可 以 用 关系 或 数据 方 结构 实现 。 























面向 属性 归纳 方法 包含 以 下 技术 : 数据 聚焦 、 通 过 属性 删除 或 属性 泛 化 泛 化 数据 、 


值 累计 、 属 性 泛 化 控制 和 泛 化 数据 可 视 化 。 








。 概 念 描述 是 描述 式 数据 挖掘 的 最 基本 形 
数据 的 有 趣 的 一 般 特性 。 
作 目 标 类 的 数据 集 ， 而 后 者 








二 者 都 是 基于 属性 





计数 和 聚集 


5. 


CD 


5. 


小 


20， 


5.7 
5.8 

















泛 化 数据 可 以 用 多 种 形式 可 视 化 ， 包 括 泛 化 关系 、 交 叉 表 、 条 形 图 、 饼 图 、 数 据 方 视 网 、 曲 线 
和 规则 。 下 外 和 上 卷 可 以 交互 地 在 泛 化 数据 上 进行 。 



































解析 特征 /比较 进行 


Xe 


遇 性 或 维 相关 分 析 ， 在 归纳 处 到 















































E 之 前 过 滤 掉 不 相关 和 弱 相 关 属 性 。 








概念 比较 可 以 用 类 似 于 概念 特征 的 方式 ， 使 用 面向 属性 归纳 或 数据 方 方 法 进行 。 可 以 量化 地 比 











较 和 对 比 从 目标 类 和 对 比 类 泛 化 的 元 组 。 




















特征 和 比较 描述 〈 形 成 概念 描述 ) 可 以 在 同一 个 泛 化 关系 、 交 叉 表 或 量化 规则 中 直观 表示 ， 尽 
管 他 们 以 不 同 的 兴趣 度 度量 显示 。 这 些 度量 包括 t- 权 《元 组 的 典型 性 ) 和 d- 权 《元 组 的 可 区 















































分 性 ) 









































有 用 的 可 视 化 工具 。 





























与 机 器 学 习 算 法 相 比 ， 面 向 数据 库 的 概念 描述 导致 在 大 型 数据 库 和 数据 仓库 中 的 有 效 性 和 可 规 





模 性 。 
对 基本 方法 稍 















































习题 




















从 统计 学 角度 ， 可 以 使 用 统计 度量 描述 数据 的 中 心 趋 
有 用 信息 ， 可 以 从 数据 库 控 掘 。 合 图、 分 位 数 图 、 散 布 图 和 分 位 数 -分 位 数 图 是 描述 式 挖掘 











势 和 发 散 。 四 分 位 数 、 变 差 和 局 外 者 也 是 



























































加 扩充 ， 概 念 描述 挖掘 可 以 增 量 地 、 并 行 地 、 或 分 布地 进行 。 











对 于 类 特征 . 基于 数据 方 的 实现 与 诸如 面向 属性 归纳 的 关系 实现 之 间 的 主要 不 同 是 什么 ? 讨 











论 哪 种 方法 最 有 效 ， 在 什么 条 件 下 最 有 效 。 
假定 下 面 的 表 从 面向 属性 归纳 导出 。 





























class birth p co 
lace unt 
Canada 18 
Programm orthers 0 
er Canada 2 
orthers 0 
DBA 
20 
80 








(a) ”将 该 表 转 换 成 显示 相关 t- 权 和 a- 权 的 交 义 表 。 








(b) 将 类 Programmer 转换 成 〈 双 向 的 ) 量化 




















述 规则 。 例 如 ，V 五 Prosgrammer( 用 心 


(birth place(®D = “Canada’ A\...)[t: WW qd: Wj]...vLit: Wm，d: 动 ] 。 
讨论 为 什么 需要 解析 特征 和 如 何 进 行 。 比 较 两 种 归纳 方法 的 结果 : (1) 包含 相关 分 析 和 “(2) 


不 包含 相关 分 析 。 

















对 于 数据 发 散 特征 ， 另 外 给 出 三 个 常用 统计 度量 








《未 如 


E 本 章 解 释 ) ， 并 讨论 如 何在 大 型 数据 




















库 中 有 效 地 计算 它们 。 





5.5 假定 分 析 数 据 包 含 属性 age。 数据 元 组 的 age 值 ( 以 递增 序 ) 是 : 13，15，16，16，19，20， 
21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70 

















(a) ”该 数据 的 平均 值 是 多 少 ? 中 值 是 多 少 ? 














(b) ”该 数据 的 模 是 多 少 ? 评论 数据 的 模 〈 即 ， 双 模 、 三 模 等 ) 。 


(c) ”数据 的 中 间 区 间 是 什么 ? 











(d) ”你 能 找 出 (粗略 地 ) 数据 的 第 一 个 四 分 位 数 〈Q1) 和 第 三 个 四 分 位 数 〈Q3) 吗 ? 








(e) ”给 出 数据 的 五 数 概括 。 
(f)” 画 出 数据 的 盒 图 。 











(g) ”分 位 数 -分 位 数 图 与 分 位 数 图 的 不 同 之 处 是 什么 ? 
5.6 给 定 由 数据 库 7B 导出 的 泛 化 关系 局 假定 元 组 的 集合 A 好 需要 从 PB 删除 。 人 简要 给 出 用 于 














的 必要 删除 的 更 新 过 程 。 


























简要 给 出 挖掘 解析 类 比较 的 基于 数据 方 的 增 量 算法 。 
































简要 给 出 数据 方 环境 下 数据 发 散 统计 度量 挖掘 的 〈1) 并 行 ，〈2) 分 布 式 方法 。 








文献 注释 





在 计算 机 出 现 之 前 ， 泛 化 与 汇总 
Cleveland[Cle93] 和 DevorelDev951]。 














前 已 在 机 器 入: 习 界 提出 和 6 


Michalski [Mic83] 提 
间 方 法 



































概念 











集 的 方 操作 。 最 近 ， 关 了 








交 
。 解 释 空 





























Gary, Chaudhuri, 

F『 有 效 的 数据 方 计算 有 
一 个 全 面 综述 可 以 在 Chaudhuri 
述 的 面向 数据 库 方法 开发 








> 
本 章 
Cercone 


扩充 。 





























介绍 的 面向 属性 的 归纳 方法 首先 
[HCC93], Han 和 Fu[HF96],Carter 和 Hamilton[CH98],Han, Nishio, Kawano 和 Wang [H 





有 许多 方法 评估 
许多 替代 已 经 提出 ， 包 括 








属性 














相关 性 ， 


归纳 学 习 的 理 ; 
zs 间 由 








a 和 Feigenbaum [SF86bj] 提 供 。 
Michalski[DM83], Michalski, 

基于 数据 方 的 泛 化 技术 最 初 由 E. E. Codd，S. 
OLAP 的 数据 仓库 中 实现 。 


Carbonell 和 MitchellLMCM86] 和 Mitche 


已 在 统计 界 研究 。 














统计 























述 数 据 挖掘 方法 的 总 结 包括 





基于 泛 化 的 归纳 技术 ， 如 示例 学 习 ， 在 数据 挖掘 和 





论 和 方法 由 
Mitchell{[Mit77, 





Miclel Sk [Mic83] 提 出 。 
Mit82] 提 出 。5. 6. 1 小 节 





























机 器 学 习 的 “. 航 介绍 何以 在 





Bosworth，Layman 等 














B.Codd 和 Salley[CCS93] 提 出 ， 
等 [GCB+97] 提 出 了 


























和 Dayal[CD97]j 








许多 五 
找到。 





























| Cal， 























述 数 据 库 和 数据 仓库 中 大 量 数据 的 可 扩展 的 
Cercone 和 Han[LCCH91] 提 出 ， 








究 ， 对 泛 化 的 有 效 计算 作出 了 








并 被 Han， 














究 开 始 之 
示例 学 习 方法 ! 
介绍 的 分 解 解释 空 
Dietterich 和 

















11 [Mit97] 中 找到 。 





并 在 许多 基于 
数据 方 中 计 算 聚 


贡献 。 该 课题 的 
































和 有 效 的 技术 。 
Cai 和 
KW98] 






































增益 率 (Quinlan[Qui93] ) ， 它 考虑 每 个 属性 值 


每 个 都 有 自己 的 偏爱 。 信 





息 增益 度量 偏向 于 具有 























的 可 能 性 。 

















许多 值 的 属性 。 
其 它 相关 性 度 








量 包 括 Gini 索引 (Breiman，Frieman，0lshen 和 Stone[BF0S84] ) ，x 应 急 表 统计 和 不 确定 系数 














( Johnson 
Niblett [BN92]。 














关于 使 











和 Wichern 





分 位 数 图 、 
见 Cleveland[Cle93] 和 Devore[Dev95] 。 





[JW92] ) 。 





分 位 数 -分 位 数 图 、 
Knorr 和 Ng [KN98] 


关于 判定 树 归 约 的 属性 选择 度量 比较 ， 
关于 另外 的 方法 ， 见 Liu 和 Motoda[LM98ab]，Dash 和 Liu[DL97]，Almualli 
Dietterich[AD91]。 
盒 图 、 

















见 Buntine 和 
和 





散布 图 和 loess 曲线 的 基于 统计 的 数据 可 视 化 ， 




















究 了 定义 和 计算 局 外 





者 的 一 致 方法 。 


第 六 章 挖掘 大 型 数据 库 中 的 关联 规则 


关联 规则 挖掘 发 现 大 量 数据 中 项 集 之 问 有 趣 的 关联 或 相关 联系 。 随 着 大 量 数据 不 停 地 收集 和 存 
储 ， 许 多 业界 人 士 对 于 从 他 们 的 数据 库 中 挖 据 关联 规则 越 来 越 感 兴趣 。 从 大 量 商 务 事务 记录 中 发 现 
有 趣 的 关联 关系 ， 可 以 帮助 许多 商务 决策 的 制定 ， 如 分 类 设计 、 交 叉 购 物 和 贱 卖 分 析 。 

关联 规则 挖掘 的 一 个 典型 例子 是 购物 篮 分 析 。 该 过 程 通 过 发 现 顾客 放 入 其 购物 篮 中 不 同 商品 (图 
6.1) 之 间 联 系 ， 分 析 顾 客 的 购买 习惯 。 通 过 了 解 哪些 商品 频繁 地 被 顾客 同时 购买 ， 这 种 关联 的 发 现 
可 以 帮助 零售 商 制定 营销 策略 。 例 如 , 在 同一 次 去 超级 市 场 , 如 果 顾 客 购买 牛奶 ,他 也 购买 面包 (和 
什么 类 型 的 面包 ) 的 可 能 性 有 多 大 ? 通过 帮助 零售 商 有 选择 地 经 销 和 安排 货架 ， 这 种 信息 可 以 引导 
销售 。 例 如 ， 将 牛奶 和 面包 尽 可 能 放 近 一 些 ， 可 以 进一步 刺激 一 次 去 商店 同时 购买 这 些 商品 。 



































































































































































































































A 咽 ,那些 商品 频 玛 地 被 


我 的 项 客 同时 购 头 ? 

购物 篮 
牛奶 面包 | 牛奶 面包 
从 二 糖 ”鸡蛋 黄油 
顾客 1 顾客 2 顾客 3 

市 场 分 析 员 
糖 ”鸡蛋 
顾客 n 


图 6.1 ”购物 篮 分 析 
数据 是 事务 的 或 关系 的 ， 如 何 由 大 量 的 数据 中 发 现 关 联 规则 ? 什么 样 的 关联 规则 最 有 趣 ? 我 们 
如 何 帮 助 或 指导 挖掘 过 程 发 现 有 趣 的 关联 规则 ? 对 于 关联 规则 挖掘 ， 什 么 样 的 语言 结构 对 于 定义 关 
联 挖掘 查询 是 有 用 的 ? 本 章 我 们 将 深入 研究 这 些 问 题 。 







































































6.1 关联 规则 挖掘 








关联 规则 挖掘 寻找 给 定数 据 集 中 项 之 问 的 有 趣 联系 。 丁 简要 介绍 关联 规则 挖掘。6.1.1 小 节 给 
出 一 个 购物 篮 分 析 的 例子 ， 这 是 关联 规则 挖掘 的 最 初 形式 。 挖 气 关 联 规则 的 基本 概念 在 6.1.2 小 节 
给 出 。6.1.3 小 节 给 出 一 个 路 线 图 ， 指 向 可 挖 据 的 各 种 不 同类 型 关联 规则 。 












































6.1.1 购物 篮 分 析 : 一 个 引发 关联 规则 挖掘 的 例子 


假定 作为 Al1Electronics 的 分 店 经 理 ， 你 想 更 加 了 解 你 的 顾客 的 购物 习惯 。 例 如 ， 你 想 知 道 
“什么 商品 组 或 集合 顾客 多 半 会 在 一 次 购物 时 同时 购买 ? ”为 回答 你 的 问题 ， 你 可 以 在 你 的 商店 顾 
客 事务 零售 数据 上 运行 购物 篮 分 析 。 分 析 结 果 可 以 用 于 市 场 规 划 、 广 告 策划 、 分 类 设计 。 例 如 ， 购 
物 篮 分 析 可 以 帮助 经 理 设 计 不 同 的 商店 布局 。 一 种 策略 是 : 经 常 一 块 购买 的 商品 可 以 放 近 一 些 ， 以 
便 进一步 刺激 这 些 商 品 一 起 销售 。 例 如 ， 如 果 顾 客 购买 计算 机 也 倾向 于 同时 购买 财务 软件 ， 将 硬件 
摆 放 离 软 件 陈列 近 一 点 ， 可 能 有 助 于 增加 二 者 的 销售 。 另 一 种 策略 是 : 将 硬件 和 软件 放 在 商店 的 两 














































































































端 ， 可 能 诱发 买 这些 商 品 的 顾客 一 路 挑选 其 它 商品 。 例 如 ， 在 决定 购买 民 贵 的 计算 机 之 后 ， 去 
看 软件 陈列 ， 购 买 财务 软件 ， 路 上 可 能 看 到 安全 系统 ， 可 能 会 决定 也 买 家 庭 安全 系统 。 购 物 篮 分 析 
也 可 以 帮助 零售 商 规 划 什 么 商品 降价 出 售 。 如 果 顾 客 趋向 于 同时 购买 计算 机 和 打印 机 ， 打 印 机 降价 
出 售 可 能 既 促 使 购买 打印 机 ， 又 促使 购买 计算 机 。 
如 果 我 们 想象 全 域 是 商店 中 可 利用 的 商品 的 集合 ， 则 每 种 商品 有 一 个 布尔 变量 ， 表 示 该 商品 的 
有 无 。 每 个 篮子 则 可 用 一 个 布尔 向 量 表示 。 可 以 分 析 布尔 向 量 ， 得 到 反映 商品 频繁 关联 或 同时 购买 
的 购买 模式 。 这 些 模式 可 以 用 关联 规则 的 形式 表示 。 例 如 ， 购 买 计算 机 也 趋向 于 同时 购买 财务 管理 
软件 可 以 用 以 下 关联 规则 表示 : 
computer SS financial_management _ software 
i confidence=60%] (6.1) 


规则 的 支持 度 和 置信 度 是 两 个 规则 兴趣 度 度量 ， 已 在 前 面 4.1.4 小 节 介绍 。 它 们 分 别 反 映 发 现 规 
则 的 有 用 性 和 确定 性 。 关联 规则 (6.D 的 支 侍 度 2% 意味 分 析 事 和 的 2 同时 区 计算 机 和 册 务 管理 
件 。 置 信和 度 60% 意 味 购 买 计算 机 的 顾客 60% 也 购买 财务 管理 软件 。 关 联 规则 是 有 趣 的， 如 果 它 满足 
最 小 支持 度 阐 值 和 最 小 置信 和 度 阐 值 。 这 些 闵 值 可 以 由 用 户 或 领域 专家 设 定 。 
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6.1.2 ”基本 概念 




















设 T= {说 ,2).… in} 是 项 的 集合 。 设 任务 相关 的 数据 D 是 数据 库 事务 的 集合 ， 其 中 每 个 事务 7 
是 项 的 集合 ， 使 得 7 c IT。 每 一 个 事务 有 一 个 标识 符 ， 称 作 TID。 设 4 是 一 个 项 集 ， 事 务 了 包含 4 
当 且 仅 当 4 c 7。 关 联 规则 是 形 如 A 二 B 的 蕴涵 式 ， 其 中 AcI, BcI, 并 且 4mB= 世 。 规 则 4 一 
B 在 事务 集 DD 中 成 立 ， 具 有 支持 度 s， 其 中 s 是 DD 中 事务 包含 AUB( 即 ，A 和 B 二 者 ) 的 百分比 。 

































































































































































er a A 的 事务 同时 也 包含 B 
的 百分比 是 c。 这 是 条 件 概率 P(B|A)。 

support (A > B)= P(A B) 

(6.2) 

confidence (A > B)= P(B|A) 

(6.3) 











同时 满足 最 小 支持 度 闵 值 (min_sup) 和 最 小 置信 和 度 阐 值 (min_con 有 的 规则 称 作 强 规则 。 为 方便 计 ， 
我 们 用 0% 和 100% 之 间 的 值 ， 而 不 是 用 0 到 1 之 间 的 值 表示 支持 度 和 置信 度 
项 的 集合 称 为 项 集 “*。 包 含 个 项 的 项 集 称 为 有 -项 集 。 和 集合 {computer financial_management_ 
sofiware} 是 一 个 2- 项 集 。 项 集 的 出 现 频率 是 包含 项 集 的 事务 数 ， 简 称 为 项 集 的 频率 、 支 持 计数 或 计 
数 。 项 集 满足 最 小 支持 度 min_sup， 如 果 项 集 的 出 现 频 率 大 于 或 等 于 min_sup 与 D 中 事务 总 数 的 乘 
只 。 如 果 项 集 满 足 最 小 支持 度 ， 则 称 它 为 频繁 项 集 “。 频 繁 - 项 集 的 集合 通常 记 作 L。"” 

“如 何 由 大 型 数据 库 挖掘 关联 规则 ? ”关联 规则 的 挖掘 是 一 个 两 步 的 过 程 : 


1， 找 出 所 有 频繁 项 集 : 根据 定义 ， 这 些 项 集 出 现 的 频繁 性 至 少 和 预定 义 的 最 小 支持 计数 一 样 。 


2. 由 频繁 项 集 产 生 强 关联 规则 : 根据 定义 ， 这 些 规则 必须 满足 最 小 支持 度 和 最 小 置信 和 度 
如 果 愿 意 ， 也 可 以 使 用 附加 的 兴趣 度 度量 。 这 两 步 中 ， 第 二 步 最 容易 。 挖 据 关 联 规则 的 总 体 性 
能 由 第 一 步 决定 。 











































































































































































































6.1.3 ”关联 规则 挖掘 : 一 个 路 线 图 














购物 篮 分 析 上 只 是 关联 规则 挖掘 的 一 种 形式 。 事 实 上 ， 有 许多 种 关联 规则 。 根 据 下 面 的 标准 ， 关 
联 规则 有 多 种 分 类 方法 : 









































5 在 数据 挖掘 研究 界 ，“itemset” 比 “item set” 更 常用 
2 在 早期 的 工作 中 ， 满 足 最 小 支持 度 的 项 集 称 为 大 的 。 然而 ， 该 术语 有 时 易 混 淆 ， 因 为 它 具 有 项 集中 项 的 个 数 的 内 
涵 ， 而 不 是 集合 出 现 的 频率 。 因 此 ， 我 们 使 用 当前 术语 频繁 。 
尽管 频繁 已 取代 大 的 ， 由 于 历史 的 原因 ， 频 繁 -项 集 仍 记 作 六 。 


















































































































































根据 规则 中 所 处 理 的 值 类 型 : 如 果 ] 
上 6.0) 是 由 购物 篮 分 析 得 到 的 布尔 关联 规则 。 


如 ， 上 面 的 规 贝 


纲 则 考虑 













































































则 。 注 意 ，(6. 了 1) 式 可 以 写作 


buys(X,"computer") > buys(X," financial_management _ software") 














规则 (6.1) 是 单 多 

















联 规则 ， 





根据 规则 集 所 涉及 的 抽象 层 :， 有 些 挖 和 
假定 挖掘 的 关联 规则 集 包含 





关联 规则 ， 
fime_of_transaction 和 customer_category， 则 它 是 多 维 关联 规则 。 
因为 它 涉及 三 个 维 age, income 和 buys。 


时 关联 规 由 














因为 它 只 








下 面 规则 : 


涉及 一 个 维 


age(X, "30...39”) = buys(X, ”laptop computer”’) 


6.2 由 事务 数据 库 挖掘 单 维 布尔 关联 规则 


则 ， 





节 介 


冰山 查询 的 效率 。 冰 


按照 多 维 数据 


算法 是 一 种 找 频繁 项 集 和 
绍 Apriori 算法 的 一 些 变形 ， 
不 象 Apriori， 它 们 不 涉及 “候选 ”频繁 项 集 的 产生 。6.2.5 小 节 介 绍 如 何 将 Apriori 
1 查询 在 购物 篮 分 析 中 是 常见 的 。 








在 规则 (6.6) 和 (6.7)' 





， 购 买 的 商品 涉及 不 同 的 抽象 层 〈 即 ， 











的 抽象 层 )。 我 们 称 所 挖 
































的 关联 是 项 的 在 与 不 在 ， 则 它 











| 的 方法 可 以 在 不 同 的 抽象 





古 布尔 关联 规则 。 例 














如 果 规 则 描述 的 是 量化 的 项 或 属性 之 间 的 关联 ， 则 它 是 量化 关联 规则 。 在 这 种 规则 中 ， 项 
或 属性 的 量化 值 划分 为 区 间 。 下 面 的 规则 (6.4) 是 量化 关联 规则 的 一 个 例子 ， 其 中 ，X 是 代表 顾 
客 的 变量 。 
age(X,"30...39") 和 人 income(X,"42K...48K")—> buys(X,"high _resolution _7V”) (6.4) 
注意 ， 量 化 属性 age 和 income 已 离散 化 。 
" ”根据 规则 中 涉及 的 数据 维 : 如 果 关 联 规则 中 的 项 或 属性 每 个 只 涉及 一 个 维 ， 则 它 是 单 维 关联 规 


(6.5) 


buys。 如 果 规 则 涉及 两 个 或 多 个 维 , 如 维 buys， 
上 面 的 规则 (6.4) 是 一 个 多 维 关 








时 的 规则 集 由 多 层 关联 规则 组 成 。 反 之 ， 如 果 在 





不 涉及 不 同 抽象 层 的 项 或 属性 ， 则 该 集合 包含 单 层 关联 规则 。 


根据 关联 挖掘 的 各 种 扩充 : 关联 挖 扩 














时 可 以 扩充 到 相关 分 析 ， 那 上 


慨 发 现 规则 。 例 如 ， 


(6.6) 


age(X, ”30...39”) SS buys(X,” computer”) 


(6.7) 


”computer”* 在 比 *laptop computer”* 高 


给 定 的 规则 集中 ， 规 则 

















ym 








可 以 识别 项 是 否 相 关 。 

















以 扩充 到 挖掘 最 大 模式 〈 即 ， 最 大 的 频繁 模式 ) 和 频繁 闭 项 集 。 最 大 模式 是 频繁 模式 p， 全 得 


的 他 





F 何 真 超 模式 ”都 不 是 频繁 




















如 果 不 存在 c 的 真 i 

















显著 地 
本 章 的 














本 节 ， 你 将 学 习 挖掘 最 简 


如 6.1.1 小 节 所 讨论 











的 购 








的 基 











鸭 物 篮 分 析 中 的 导 
本 算法 。 



































库 使 





的 术 ; 


语 ， 




















我 们 把 规则 中 的 每 个 不 同 谓词 称 作 维 。 


馈 集 c"， 使 得 每 个 包含 c 的 习 
压缩 挖掘 所 产生 的 频繁 项 集 数 。 


余部 分 ， 你 将 学 习 上 述 每 种 关联 规则 的 控 和 


单 形 式 的 关联 规 贝 


B 些 





的 。 ye 
有 务 也 包含 














| 的 方法 。 


这 种 关联 规则 是 单 








。 我 们 以 提供 











”gf 是 p 的 超 模 式 ， 如 果 p 是 g 的 子 模式 ， 即 ， 如 果 g 包 含 p 





闭 的 项 集 ; 其 中 ， 项 集 c 是 际 





] 的 ， 








。 使 用 最 大 模式 和 频繁 闭 项 集 可 以 




















Apriori 算法 开 





维 、 单 
始 (6.2.1 小 节 )。Apriori 
由 频繁 项 集 产生 强 关 联 规则 的 过 程 在 6.2.2 小 节 给 出 。6.2.3 小 


层 、 布 尔 关 联 规 





用 于 提高 效率 和 可 规模 性 ， 6.2.4 小 节 提 出 一 些 挖掘 关 联 规则 方法 ， 





的 原则 用 于 提高 





6.2.1 Apriori 算法 : 使 用 候选 项 集 找 频繁 项 集 














Apriori 算 法 是 一 种 最 有 影响 的 挖 据 布尔 关联 规则 频繁 项 集 的 算法 ,算法 的 名 字 基 于 这 样 的 事实 ; 







































































的 集合 L2， 而 用 于 找 L3， 如 此 下 去 ， 直 到 不 能 找到 频繁 -项 集 。 



































算法 使 用 频繁 项 集 性 质 的 先 验 知识 , 正如 我 们 将 看 到 的 。 Apriori 使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 ， 
k- 项 集 用 于 探索 (K+1)- 项 集 。 首 先 ， 找 出 频 蚂 1- 项 集 的 集合 。 该 集合 记 作 Li。Lj 用 于 找 频繁 2- 项 集 




















找 每 个 太 需 要 一 次 数据 库 扫 




















为 提高 频繁 项 集 逐 层 产 生 的 效率 , 一 种 称 作 Apriori 性 质 的 重要 

















性 质 用 于 压缩 搜索 空间 。 我 们 先 




















介绍 该 性 质 ， 然 后 用 一 个 例子 解释 它 的 使 用 。 






































Apriori 性 质 : 频繁 项 集 的 所 有 非 空子 集 都 必须 也 是 频繁 的 。Apriori 性 质 基 于 如 下 观察 : 根据 






























































也 都 不 能 通过 相同 的 测试 。 称 它 为 反 单调 的 ， 因为 在 通 前 不 过 测试 的 意 





















































定义 ， 如 果 项 集 了 不 满足 最 小 支持 度 阔 值 s， 则 了 不 是 频繁 的 ， 即 POD < s。 如 果 项 A 添加 到 IJ， 则 结 
果 项 集 ( 即 ，7 UA) 不 可 能 比 了 更 频繁 出 现 。 办 此， TU A 也 不 是 频繁 的 ， 即 POU A) < s。 
该 性 质 属于 一 种 特殊 的 分 类 ， 称 作 反 单调 ， 意 指 如 果 一 个 集合 不 能 通过 测试 ， 则 它 的 所 有 超 集 
































意义 下 ， 该 性 质 是 单调 的 。 


“如 何 将 Apriori 性 质 用 于 算法 ? ”为 理解 这 一 点 ， 我 们 必须 看 看 如 何 用 Li . j 找 LL。 下 面 的 两 














步 过 程 由 连接 和 前 枝 组 成 。 
1， 连 接 步 : 为 找 及 ,通过 到 -7 与 自己 连接 产生 候选 左 项 集 的 集合 。 





























lj 和 ,是 专 .j 中 的 项 集 。 记 号 抽 ] 表 示 关 的 第 7 项 〈 例 如 ，1 攻 2] 表示 六 的 倒数 第 3 项 )。 为 方便 














该 候选 项 集 的 集合 记 作 Cr。 设 





























计 ， 假 定 事务 或 项 集中 的 项 按 字 典 次 序 排 序 。 执 行 连接 太 .， Ix.1; 其 中 ，Lx .1 的 元 素 是 可 连 
接 的 , 如 果 它 们 前 (C2) 个 项 相同 ; 即 , .的 元 素 Ly 和 二 是 可 连接 的 , 如 果 (j [1] = [1]) 入 (4 [2] 








=12 [2) A 人 (7[k2] = [Kk2D) A [kK1] < bz [Kk-1])。 条 件 (1i [El 
重复 。 连 接 1 和 1 产生 的 结果 项 集 是 1 [1] 1 [2]... 1 [Kk-1] 12 [kK-1]。 



































] < 2 [CI) 是 简单 地 保证 不 产生 











2， 剪 枝 步 ， Ci 是 大 的 超 集 ， 即 ， 它 的 成 员 可 以 是 ， 也 可 以 不 是 频繁 的 ， 但 所 有 的 频繁 大 项 集 都 包 
含 在 Ci 中。 扫描 数据 库 ， 确 定 Ci 中 每 个 候选 的 计数 ， 从 而 确定 L〈 即 ， 根 据 定 义 ， 计 数值 不 
小 于 最 小 支持 度 计数 的 所 有 候选 是 频繁 的 ， 从 而 属于 Dr)。 然 而 ，Ck 可 能 很 大 ， 这 样 押 涉及 的 计 

































































算 量 就 很 大 。 为 压缩 Cr， 可 以 用 以 下 办 法 使 用 Apriori 性 质 : 性 











E 何 非 频 繁 的 (Kk-1)- 项 集 都 不 是 可 


能 是 频繁 -项 集 的 子 集 。 因此， 如 果 一 个 候选 项 集 的 (k-1)- 子 集 不 在 Lx. ;中 ， 则 该 候选 也 不 可 
能 是 频繁 的 ， 从 而 可 以 由 Ci 中 删除 。 这 种 子 集 测试 可 以 使 用 所 有 频繁 项 集 的 散 列 树 快速 完成 。 


例 6.1 让 我 们 看 一 个 Apriori 的 具体 例子 。 该 例 基 于 图 6.2 的 AllElectronics 的 事务 数据 库 。 数 






















































































据 库 中 有 9 个 事务 , 即 |D| = 9。Apriori 假定 事务 中 的 项 按 字典 次 序 存 
算法 发 现 D 中 的 频繁 项 集 。 














AllElectronics 数据 库 
TID List of item_ID’s 
T100 | 11,12,I5S 








T200 | I2,14 
T300 | I2,13 
T400 | I1,12,I4 
TS500 | I1,13 
T600 | I2,13 
T700 | I1,13 


T800 | I1,12,13,I5 
T900 | 11,12,13 









































对 每 个 项 的 出 现 次 数 计 数 。 























放 。 我 们 使 用 图 6.3 解释 Apriori 


图 6.2 AllElectronics 某 分 店 的 事务 数据 
1.， 在 算法 的 第 一 次 兴 代 ， 每 个 项 都 是 候选 1- 项 集 的 集合 Cj 的 成 员 。 

















算法 简单 地 扫描 所 有 的 事务 


























2. 假定 最 小 事务 支持 计数 为 2〔 即 ，min_sup = 2/9 = 22% )。 可 以 确定 频繁 1- 项 集 的 集合 Lj。 它 | 




















具有 最 小 支持 度 的 候选 1- 项 集 组 成 。 





























的 集合 Lz， 算法 使 用 L， 万 产生 候选 2- 项 集 的 集合 Cy 2。 由 (个 2- 
2 

















3.， 为 发 现 频繁 2- 项 得 
项 集 组 成 。 

4. 下 一 步 , 扫描 九 中 事务 , 计算 C? 中 每 个 候选 项 集 的 支持 计数 ,如 图 6.3 的 第 二 行 的 中 间 表 所 示 。 

5. 确定 频繁 2- 项 集 的 集合 L2， 它 由 具有 最 小 支持 度 的 Cs 中 的 候选 2- 项 集 组 成 。 








A 

































































Ci L1 
支持 度 计数 支持 度 计数 
扫描 D， 对 每 比较 候选 支持 度 计数 
个 候 渤 计数 与 最 小 支持 度 计 数 
一 一 一 一 一 一 * 











fi | 4 i TT 
扫描 D， 对 每 | {1113) | 4 比较 候选 支持 度 计 数 | {1,12} 
个 候选 计数 : 与 最 小 支持 度 计数 “| {11.13) 
ee {I1,I4} 外 es {11 15) 
2 {1213} 
{12,14} 
2 {I2,15} 
0 
1 
0 
i = 比较 候选 支持 度 计数 3 
i 和 支持 度 计数 | 呈 基 小 支持 度 计数 支持 度 计 数 
et {I1,12,13} = {I1,12,13} 3 = {I1,12,13} Ee] 
{I1,I2,15} {I1,12,15} 可 {I1.I2.I5} 
图 63 。 候选 项 集 和 频繁 项 集 的 产生 ， 最 小 支持 计数 为 2 











1. 连 接 : C= DLL L2={ {11,12},{11,13}),{I1,15},{12,13},{12,14},{12,15}} 
{ {11,72},{11,13},{11,15},{12,13},{12,14},{12,15}} = 
{ {I1,12,13},{11,12,15}, {11,13,15},{12,13,14},{12,13,15},{12,14,15}} 
2. 使 用 Apriori 性 质 前 枝 : 频繁 项 集 的 所 有 子 集 必须 是 频繁 的 。 存 在 候选 项 集 ， 划 
子 集 不 是 频繁 的 吗 ? 
" {11,12,13} 的 2- 项 子 集 是 {I1,I22}，{I1,13} 和 {12,I3}。{I1,I2,13} 的 所 有 2- 项 子 集 都 
是 LL 的 元 素 。 因 此 ， 保 留 {I1,I2,13} 在 Cs 中 。 


" {I1,I2,15} 的 2- 项 子 集 是 {I1,12}，{I1,15} 和 {12,15}。{I1,I2,15} 的 所 有 2- 项 子 集 都 
是 LL 的 元 素 。 因 此 ， 保 留 {I1,12,I5} 在 Cs 中 。 

" {I1,T3,I15} 的 2- 项 子 集 是 {I1,13}，{I1,15} 和 {I3,I5}。{13,I5} 不 是 LL 的 元 素 ， 因 
不 是 频繁 的 。 这 样 ， 由 Cs 中 删除 {I1,13,15}。 

{12,13,14} 的 2- 项 子 集 是 {12,13}，{I2,14} 和 {I3,I4}。{13,14} 不 是 LL; 的 元 素 ， 因 而 
不 是 频繁 的 。 这 样 ， 由 C; 中 删除 {I2,13,I4}。 

" {12,13,15} 的 2- 项 子 集 是 {12,13}，{I2,15} 和 {I3,15}。{13,I5} 不 是 LL 的 元 素 ， 因 而 
不 是 频繁 的 。 这 样 ， 由 C; 中 删除 {I2,13,15}。 





















































| 
| 
















































































”LL 工 /等 价 于 LxL， 因 为 LL 的 定义 要 求 两 个 连接 的 项 集 共享 太 1=0 个 项 。 














{I2,14,15} 的 2- 项 子 集 是 {I2,14}，{I2,I5} 和 {I4,I5}。{14,15} 不 是 L, 的 元 素 ， 























不 是 频繁 的 。 这 样 ， 由 C3 中 删除 {I2,13,15}。 
3. 这 样 ， 前 枝 后 C3= {{I1,12,13},{I1,I2,I5}}。 











因而 





























图 6.4 使 
6. 候选 3- 项 集 的 集合 C3 的 产生 详 旨 











地 列 在 图 6.4 中 。 首先 ， 






































的 ， 我 们 可 以 确定 后 4 个 候选 不 可 能 是 频繁 的 。 











令 Ci=72 
{11,13,15}, {12,13,14}, {I2,13,I5}, {I2,14,I5}}。 根 据 Apriori 性 质 ， 频 繁 ] 
因此 ， 我 们 把 它们 | 





























描 忆 确定 疡 时 就 不 必 再 求 它 们 的 计数 值 。 
我 们 只 需要 检查 它们 的 (k-1)- 子 集 是 否 频繁 。 
































































































































7.， 扫描 D 中 事务 ， 以 确定 L3， 它 | 
8. 算法 使 用 L; 























去 , 因为 它 的 子 集 {I1,13,5} 不 是 频繁 的 。 这 样 ，Cy= 人 ， 
[DD 












































具有 最 小 支持 度 的 C; 中 的 候选 3- 项 集 组 成 《图 


L3 产 生 候 选 4- 项 集 的 集合 Czy。 尽管 连接 产生 结果 {{I1,12,I13,15}}， 这 个 项 集 被 前 
因此 算法 终止 , 找 出 了 所 有 的 频繁 项 集 。 





图 6.5 给 出 Apriori 算法 和 它 的 相关 过 程 的 伪 代 码 。Apriori 的 第 1 步 找 
在 2-10 步 , Li.j 用 于 产生 候选 Cx， 以 找 出 Lk。Apriori_gen 过 程 产生 候选 ,然后 使 用 Apriori 性 质 删 





述 。 
































除 那些 具有 非 频繁 子 集 的 候选 步骤 3)。 该 过 程 在 下 面 
库 (步骤 4)。 对 于 每 个 事务 ， 使 用 subset 
这 样 的 候选 累加 计数 (步骤 6 和 7)。 最 后 ， 所 有 满足 最 小 支持 度 















































的 候选 














用 一 个 过 程 ， 由 频繁 项 集 产生 关联 规则 。 该 过 程 在 6.2.2 小 节 介绍 。 




















算法 6.2.1 (Apriori) 使 用 逐 层 迭代 找 出 频繁 项 集 
输入 : 事务 数据 库 D; 最 小 支持 度 阔 值 。 
输出 : D 中 的 频繁 项 集 工 。 
方法 : 
1) Li=fnd frequent_1_itemsets(D); 
2) for (k = 2; Lxi# OG; k++) { 
3) Ck= aproiri_gen(Lx1,min_sup); 
4) for each transaction teD{ 
5) C= subset(Cx,t); 
6) for each candidate ceCt 
7) c.count++; 
8) } 
9) Lx={ceCx | c.count > min_sup} 
10) } 
11) return L= Ux; 
































//scan D for count 


procedure apriori_gen(Lx1: frequent (k-1)-itemset; min_sup: support) 


1) for each itemset lieLx i 

2) for each itemset leLxi 

3) 证 Qi[1]=12[1D)A...A 和 dik-2]=12[k-2])AUQi[k-1]<12[k-2]) then { 
4)c=1 bb; 
5) if has_infrequent_subset(c,Lx.1) then 
6) delete c; 

7) else add c to Cr; 
8) } 


9) return Cr; 


//join step: generate candidates 


// prune step: remove unfrequent cadidate 


| Apriori 性 质 ， 由 了 产生 候选 3- 项 集 C3 


L»= {{11,12,13}, {11,12,IS}, 
项 集 的 所 有 子 集 必 须 是 频繁 
C5 删 除 ， 这 样 ， 在 此 后 扫 
注意 ，Apriori 算法 使 用 逐 层 搜索 技术 ， 给 定 大 项 集 ， 























6.3 )。 

















频繁 1- 项 集 的 集合 疡 。 























日 产生 了 所 有 的 候选 ， 就 扫描 数据 
函数 找 出 事务 中 是 候选 的 所 有 子 集 (步骤 5)， 并 对 每 个 
形成 频繁 项 集 工 。 然 后 ， 调 














/get subsets of t that are candidates 


procedure has_infrequent_subset(c:candidate k-itemset; L x1:frequent (k-1)-itemset) 
// use priori knowledge 

1) for each (k-1)-subset s of c 
2) if cg¢Lri then 

3) return TRUE; 

4) return FALSE; 


如 上 所 述 ，Apriori_gen 做 
选 〈 步 骤 1-4)。 





图 





0.5 





前 枝 部 分 ( 步 又 5-7) 


测试 在 过 程 has_infrequent_subset 中 。 


6.2.2 ”由 频繁 项 集 产 生 关 联 规则 


一 旦 由 数据 库 DD 








足 最 小 文 持 度 




















confidence(A = B)= P(A|B)= 





其 














据 该 式 ， 关 联 规 则 可 以 产生 如 下 : 
" ”对 于 每 个 频繁 项 集 1， 产 生 1 的 所 有 非 空子 集 。 





" ”对 于 1 的 每 个 非 空 子 集 s， 
min_conf 是 最 小 置信 度 阔 值 。 


日 于 规则 
存放 在 hash 表 中 ， 使 得 它们 可 





一 











人 


信人 











如 果 


中 的 事务 找 出 频繁 项 集 
度 和 最 小 置信 度 )。 对 于 置信 度 ， 
support_count(A JWB) 











对 于 布尔 关联 规则 发 现 频繁 项 集 的 Apriori 算法 
两 个 动作 : 连接 和 剪 枝 。 在 连接 部 分 ， 太 -7 与 二-7 连接 产生 可 能 的 候 


使 用 Apriori 性 质 删 除 基 有 非 频 繁 子 集 的 候选 。 非 频繁 子 集 的 
































~ 

















可 以 用 下 式 ， 





support_count(]) 


support_count(A) 














support_count(s) 











由 频繁 项 集 产生 ， 





























每 个 规则 都 自动 满足 最 小 支持 度 。 
以 快速 被 访问 。 





















































例 6.2 让 我 们 试 一 个 例子 ， 它 基于 图 6.2 : 
1= {I1, 12, I5}， 可 以 由 1 产生 哪些 关联 规则 ? 1 的 非 空子 
每 个 都 列 出 置信 度 。 





{I5}。 结 果 关 联 规则 如 下 ， 


如 果 最 小 性 信和 度 阔 值 


I1^12 之 DS, 
I1AIS 之 也 ， 
I2AIS 之 11, 
I1 之 I2A 人 ID， 
12 之 IIAD， 
IS = I1AD2, 


为 70%， 则 


























6.2.3 ”提高 Apriori 的 有 效 性 


“ 怎 EA Apriori 的 有 效 性 


效率 。 其 


























中 一 些 变形 列举 如 下 。 























confidence =2/4= 50% 
confidence = 2/2 = 100% 
confidence = 2/2 = 100% 
confidence =2/6= 33% 
confidence =2/1 = 29% 
confidence = 2/2 = 100% 


只 有 2、3 和 最 后 一 个 规则 可 以 输出 ， 








其 中 条 件 


> min_conf ， 则 输 昌 





它们 产生 强 关 联 规则 是 直接 了 当 的 《〈 强 关联 规则 满 








概率 








规则 “Ss 一 (/- s)” 其 -~ HH 











用 项 集 文 持 度 计数 表示 。 
(6.8) 





，SUpport_count(AUB) 是 包含 项 集 AUB 的 事务 数 ，support_count(4) 是 包含 项 集 A 的 事务 数 。 根 





频繁 项 集 连 同 它们 的 支持 度 预 先 


AllElectronics 事务 数据 库 。 假 定数 据 包 
集 有 {I1I2}, {I1,I5}, {12,15}, {I1}, {I2} 和 











含 频繁 项 























为 只 有 





这 些 是 强 的 。 口 














? ”已 经 提出 了 许多 Apriori 算法 的 变形 ， 旨 在 提高 原 算 法 的 


使 用 散 列 函数 
hash x, y)= [lorder of x) 


*10+ (order of y)) mod 7 | 桶 内 容 my mssy ra Hs hr a fr 
创建 散 列 表 2 {13,15} | {I1,15} | {12,13} | {12,14} | {12,15} | TI23 |{11,13} 
EE ; HI |{1113) 

11,22} |{1113} 


图 6.6 ”候选 2- 项 集 的 散 列表 Hs: 该 散 列 表 在 由 Cj 确定 工时 通过 扫描 图 5.2 的 事 
务 数据 库 产生 。 如 果 最 小 支持 度 为 3， 在 桶 0, 1，3 和 4 中 的 项 集 不 可 能 是 
频繁 的 ， 因 而 它们 不 包含 在 Cs 中 


基于 散 列 的 技术 〈 散 列 项 集 计 数 ): 一 种 基于 散 列 的 技术 可 以 用 于 压缩 候选 项 集 Ci(k >1)。 例 
如 ， 当 扫描 数据 库 中 每 个 事务 ， 由 Ci 中 的 候选 1- 项 集 产生 频繁 1- 项 集 三 时 ， 我 们 可 以 对 每 个 事务 
产生 所 有 的 2- 项 集 ， 将 它们 散 列 ( 即 ， 映 射 〉 到 散 列 表 结 构 的 不 同 桶 中 ， 并 增加 对 应 的 桶 计数 医 
6.6)。 在 散 列 表 中 对 应 的 桶 计数 低 于 支持 度 阔 值 的 2- 项 集 不 可 能 是 频繁 2- 项 集 ， 因 而 应 当 由 候选 项 
集中 删除 。 这 种 基于 散 列 的 技术 可 以 大 大 压缩 要 考察 的 项 集 (特别 是 当 k=2 时 )。 


事务 压缩 (压缩 进一步 迭代 扫描 的 事务 数 )， 不 包含 任何 &- 项 集 的 事务 不 可 能 包含 任何 (k+1)- 项 
集 。 这 样 ， 这 种 事务 在 其 后 的 考虑 时 ， 可 以 加 上 标记 或 删除 ， 因 为 为 产生 j- 项 集 (0 > 有 )， 扫 描 数 据 库 
时 不 再 需要 它们 。 


划分 〈 为 找 候 选项 集 划 分 数据 ): 可 以 使 用 划分 技术 ， 它 只 需要 两 次 数据 库 扫 描 ， 以 挖掘 频繁 项 
集 (图 6.7)。 它 包含 两 遍 。 在 第 I 遍 ， 算 法 将 DD 中 的 事务 划分 成 n 个 非 重 营 的 部 分 。 如 果 D 中 事务 
的 最 小 支持 度 闵 值 为 min_sup， 则 每 个 部 分 的 最 小 支持 度 计 数 为 min_supx 该 部 分 中 事务 数 。 对 每 一 
部 分 ， 找 出 该 部 分 内 的 频繁 项 集 。 这 些 称 作 局 部 频繁 项 集 。 该 过 程 使 用 一 种 特殊 的 数据 结构 ， 对 于 
每 个 项 集 ， 记 录 包 含 项 集中 项 的 事务 的 TID。 这 使 得 对 于 k= 1,2,..， 找 出 所 有 的 局 部 频繁 -项 集 只 
需要 扫描 一 次 数据 库 。 

局 部 频繁 项 集 可 能 不 是 整个 数据 库 D 的 频繁 项 集 。 的 任何 频繁 项 集 必 须 作 为 局 部 频繁 项 集 至 
少 出 现在 一 个 部 分 中 。 这 样 ， 所 有 的 局 部 频繁 项 集 作 为 D 的 候选 项 集 。 所 有 部 分 的 频繁 项 集 的 集合 
形成 DD 的 全 局 候选 项 集 。 在 第 工人 遍 ， 第 二 次 扫描 D， 评 估 每 个 候选 的 实际 支持 度 ， 以 确定 全 局 频繁 
项 集 。 每 一 部 分 的 大 小 和 划分 的 数目 这 样 确定 ， 使 得 每 一 部 分 能 够 放 入 内 存 ， 这 样 每 遍 只 需要 读 一 
次 。 



















































































































































































































































































































































































































































































































































































0 
第 II 遍 
在 候选 项 
- D 中 频 
D 中 事务 关于 霖 ” | | 莹 项 入 
( 1 雇 扫 描 ) 








图 6.7 ”通过 划分 挖掘 

选 样 (在 给 定数 据 的 一 个 子 集 挖 气 ): 选 样 方法 的 基本 思想 是 : 选取 给 定数 据 库 D 的 随机 样本 5， 
然后 ， 在 $ 而 不 是 在 D 中 搜索 频繁 项 集 。 用 这 种 方法 ， 我 们 牺牲 了 一 些 精 度 换 取 了 有 效 性 。 样 本 $ 
的 大 小 这 样 选取 ， 使 得 可 以 在 内 存 搜索 5 中 频繁 项 集 ， 这 样 ， 总 共 只 需要 扫描 一 次 5 中 的 事务 。 
于 我 们 搜索 9 中 而 不 是 D 中 的 频繁 项 集 , 我 们 可 能 丢失 一 些 全 局 频繁 项 集 。 为 减少 这 种 可 能 性 , 我 
和 
部 分 用 于 计算 中 每 个 项 集 的 实际 频繁 度 。 有 一 种 机 制 可 以 用 来 确定 是 否 所 有 的 频繁 项 集 都 包含 在 
壤 中 。 如 果 加 实际 包含 了 D 中 的 所 有 频繁 项 集 ， 只 需要 扫描 一 次 D。 。 否 则 ， 可 以 做 第 二 次 扫描 ， 
以 找 出 在 第 一 次 扫描 时 遗漏 的 频繁 项 集 。 当 效率 最 为 重要 时 ， 如 计算 密集 的 应 用 必须 在 不 同 的 数据 
上 运行 时 ， 选 样 方法 特别 合适 。 


动态 项 集 计 数 (在 扫描 的 不 同 点 添加 候选 项 集 ): 动态 项 集 计 数 技术 将 数据 库 划 分 为 标记 开始 点 

























































































































































































































































































的 块 。 不 象 Apriori 仅 在 每 次 完整 的 数据 库 ] 














妆 描 之 前 确定 新 的 候选 ， 在 这 种 变形 中 ， 可 以 在 任何 开始 


























点 添加 新 的 候选 项 集 。 该 技术 动态 地 评估 已 被 计数 的 所 有 项 集 的 支持 度 ， 如 果 一 个 项 集 的 所 有 子 集 

































































据 和 多 媒体 数据 的 关联 挖掘 在 第 9 章 讨 论 。 





6.2.4 不 产生 候选 挖掘 频繁 项 集 





正如 我 们 已 经 看 到 的 , 在 许多 情况 下 ， 












































已 被 确定 为 频繁 的 ， 则 添加 它 作为 新 的 候选 。 结 果 算 法 需要 的 数据 库 扫 描 比 Apriori 少 。 
其 它 变形 涉及 多 层 和 多 维 关 联 规则 挖掘 ， 在 本 章 的 其 余部 分 讨论 。 涉 及 空间 数据 、 时 间 序 列 数 




















Apriori 的 候选 产生 -检查 方法 大 幅度 压缩 了 候选 项 集 的 











大 小 ， 并 导致 很 好 的 性 能 。 然 而 ， 它 有 两 丰 
昌 ” 它 可 能 需要 产生 大 量 候选 项 集 。 例 如 ， 


























达 10 个 候选 2- 项 集 , 累计 并 检查 它们 的 频繁 性 。 此 外 ,为 发 现 
a ， 它 必须 产生 多 达 2” = 10” 个 候选 。 























中 开销 可 能 并 非 微不足道 的 。 


如 果 有 10 个 频繁 1- 项 集 ， 则 Apriori 算法 需要 产生 多 
长 度 为 100 的 频繁 模式 ,如 {a&,...， 
































洁 














@ 。” 它 可 能 需要 重复 地 扫描 数据 库 ， 通 过 模式 匹配 检查 一 个 很 大 的 候选 集合 。 对 于 挖 抉 长 模式 尤其 























如 此 。 








“可 以 设计 一 种 方法 ， 挖 抉 全 部 频繁 项 集 ， 而 不 产生 候选 吗 ? ”一 种 有 趣 的 方法 称 作 频 繁 模式 





增长 ， 或 简单 地 ，FP- 增 长 ， 它 采取 如 下 分 





树 (或 FP-— 树 ) > 但 仍 保留 项 集 关 联 信息 BS 














治 策略 : 将 提供 频繁 项 集 的 数据 库 压缩 到 一 棵 频繁 模式 
然后 ， 将 这 种 压缩 后 的 数据 库 分 成 一 组 条 件数 据 库 一 




















种 特殊 类 型 的 投影 数据 库 ) ， 每 个 关联 一 个 频繁 项 ， 并 分 别 挖 据 每 个 数据 库 。 让 我 们 看 一 个 例子 。 
例 6.3 ”使 用 频繁 模式 增长 方法 ， 我 们 重新 考察 例 6. 1 中 图 6. 2 事务 数据 库 忆 的 挖掘 。 


























数据 库 的 第 一 次 扫描 与 Apriori 相同 ， 它 导 














计数 (频繁 性 ) 。 设 最 小 支持 度 计数 为 2。 
记 作 A。 这 样 ， 我 们 有 = [12:7，I1:6,， 


然后 ，FP- 树 构造 如 下 : 首先 ， 创 建树 






































导出 频繁 项 (1- 项 集 ) 的 集合 ， 并 得 到 它们 的 支持 度 
频繁 项 的 集合 按 支持 度 计数 的 递减 序 排序 。 结 果 集 或 表 
13%6, TF4:2;. L521]. 


的 根 结 点 ， 用 “nul11” 标 记 。 二 次 扫描 数据 库 D。 每 个 事 









































务 中 的 项 按 过 中 的 次 序 处 理 《 即 ， 根 据 递 减 支 持 度 计数 排序 ) 并 对 每 个 事务 创建 一 个 分 校 。 例 如 ， 











第 一 个 事务 “T100: I1，I2，I5” 按 Z 的 





次 序 包含 三 个 项 { I2，I1，I5} ， 导 致 构造 树 的 第 一 个 分 


























枝 <(I2:1)，(I1:1)，(I5:1)>。 该 分 校 具 有 三 个 结 点 ， 其 中 ，I2 作为 根 的 子女 链接 ，I1 链接 到 I2， 


























I5 链接 到 I1。 第 二 个 事务 T200 按 工 的 次 序 包 含 项 I2 和 I4， 它 导致 一 个 分 枝 ， 其 中 ，I2 链接 到 根 ， 


I4 链接 到 I2。 然 而 ， 该 分 枝 应 当 与 T100 











已 在 在 的 路 公共 京 前 级 <12》。 这 样 ， 我 们 将 结 点 I2 的 计 


数 增加 1， 并 创建 一 个 新 结 点 (14:1)， 它 作为 (12:2) 的 子女 链接 。 一 般 地 ， 当 为 一 个 事务 考虑 增加 
分 枝 时 ， 沿 共同 前 级 上 的 每 个 结 点 的 计数 增加 1， 为 随 在 前 级 之 后 的 项 创建 结 点 并 链接 。 





























为 方便 树 遍 历 ， 创 建 一 个 项 头 表 ， 使 得 





























每 个 项 通过 一 个 结 点 链 指向 它 在 树 中 的 出 现 。 扫 描 所 有 
































的 事务 之 后 得 到 的 树 展示 在 图 6.8 中 ， 附 J 
换 成 挖 据 FP- 树 问题 。 

















FE 相 关 的 结 点 链 。 这 样 ， 数 据 库 频繁 模式 的 挖 所 问题 就 转 








图 6.8 存放 压缩 的 频繁 模式 信息 的 FP- 树 





FP- 树 挖掘 处 





























个 “ 子 数据 库 ”， 

















由 FP- 树 中 与 后 缀 模式 一 起 出 现 的 前 组 路 径 集 组 成 ) 。 然 后 ， 构 造 它 的 





























里 如 下 。 由 长 度 为 1 的 频繁 模式 〈 初 始 后 缀 模式 ) 开始 ， 构 造 它 的 条 件 模 式 基 〈 一 


(条 件 ) 


FP- 树 ， 并 递归 地 在 该 树 上 进行 挖 气 。 模 式 增长 通过 后 级 模式 与 由 条 件 FP- 树 产生 的 频繁 模式 连接 实 




















现 。 








FP- 树 的 挖掘 总 结 在 表 6. 1 中 ， 细 节 如 下 。 让 我 们 首先 考虑 15， 它 是 工 中 的 最 后 一 个 项 ， 而 不 
是 第 一 个 。 其 原因 随 着 我 们 解释 FP- 树 挖掘 过 程 就 会 清楚 。1I5 出 现在 图 6.8 的 FP- 树 的 两 个 分 枝 。 
(I5 的 出 现 容易 通过 沿 它 的 结 点 链 找到 。) 这些 路 径 由 分 枝 <(I2 I1 15:1)> 和 <(I2 Il I3 I5:1)> 

































































形成 。 这 样 ， 考 虑 15 为 后 级 ， 它 的 两 个 对 应 前 级 路 径 是 <(12 I1:1)> 和 <《(I2 I1 I3:1)>， 它 们 形成 
它 的 条 件 FP- 树 上 只 包含 单个 路 径 < (12:2 I1:2)>;， 不 包含 13， 因 为 它 的 支持 度 计 
数 为 1,， 小 于 最 小 支持 度 计 数 。 该 单个 路 径 产 生 频 繁 模式 的 所 有 组 合 : I2 15:2，I1 I5:2，I2 Il I5:2。 


I5 的 条 件 模式 基 。 









































表 6.1 通过 创建 条 件 ( 子 ) 模式 基 挖 掘 FP- 树 

















item 条 件 模 式 基 条 件 FP- 树 产生 的 频繁 模式 
I5 {(I2 I1:1), (I2 I1 《I2:2，I1:2> I2 15:2, I1 15:2, I2 I1 
说 13:1)) <T2.2y 15:2 
3 {(I2 I1:1), (12:1)} cI2:4, 11:2>, I2 I4:2 
和 {(I2 I1:2), (12:2), <I1:2> 12 13:4, I1 13:4, I2 I1 
(I1:2)} 10:4) 13:2 
{ (12:4)} I2 I1:4 








对 于 I4， 它 的 两 个 前 级 形成 条 件 模 式 基 {(I2 I1:1)，(I2:1)， 产 生 一 个 单 结 点 的 条 件 FP- 树 
《<I2:2>， 并 导出 一 个 频繁 模式 I2 I4:2。 注 意 ， 尽 管 I5 跟 在 第 一 个 分 校 中 的 I4 之 后 ， 也 没有 必要 
在 此 分 析 中 包含 15, 因为 涉及 I5 的 频繁 模式 在 I5 的 考察 时 已 经 分 析 过 。 这 就 是 我 们 为 什么 












































而 不 是 由 前 面 开始 处 理 的 原因 。 



































由 后 面 ， 





与 以 上 分 析 类 似 ，I3 的 条 件 模式 基 是 {(I2 I1:2)，(I2:2)，(I1:2)}。 它 的 条 件 FP- 树 有 两 个 
分 校 <I2:4，I1:2> 和 <I1:2>， 如 图 6.9 所 示 ， 它 产生 模式 集 : {I2 13:4, Il I3:2，I2 Il 






































13:2}。 


最 后 , I1 的 条 件 模式 基 是 {(I2, 和 }, 它 的 FP- 树 只 包含 一 个 结 点 <I2:4>, 产生 一 个 频繁 模式 I2 I1:4。 











控 气 过 程 总 结 在 图 








6.105 口 


支持 度 
T 











图 6.9 上 共有 条 件 结 点 I3 的 条 件 FP- 树 








算法 : FP- 增 长 。 使 用 FP- 树 ， 通 过 模式 段 增长 ， 挖 掘 频繁 模式 。 
输入 : 事务 数据 库 D;， 最 小 文 持 度 阔 值 min_sup。 


输出 :频繁 模式 的 完全 集 。 


方法 : 














1， 按 以 下 步骤 构造 FP- 树 : 
(a) 扫描 事务 数据 库 刀 一次。 收集 频繁 项 的 集合 下 和 它们 的 支持 度 。 对 下 按 支 持 度 降 序 排 






































序 ， 结 果 为 频繁 项 表 工 。 
(b) 创建 FP- 树 的 根 结 点 ， 以 “null” 标 记 它 。 对 于 DD 中 每 个 事务 Trans， 执 行 : 
选择 Trans 中 的 频繁 项 ， 并 按 工 中 的 次 序 排序 。 设 排序 后 的 频繁 项 表 为 [p | P]， 其 
中 , 是 第 一 个 元 素 ， 而 己 是 剩余 元 素 的 表 。 调 用 insert_tree([p | P], 九 。 该 过 程 执行 
情况 如 下 。 如 果 了 有 子女 N 使 得 Nitem-name = p.item-name， 则 NN 的 计数 增加 1; 否 
则 创建 一 个 新 结 点 N, 将 其 计数 设置 为 1， 链接 到 它 的 父 结 点 7T， 并且 通过 结 点 链 结 构 
将 其 链接 到 具有 相同 item-name 的 结 点 。 如 果 己 非 空 ， 递 归 地 调用 insert_tree(P, N)。 


2.FP- 树 的 挖掘 通过 调用 FP_growth(FP_tree, nulD) 实 现 。 该 过 程 实现 如 下 ; 


procedure FP_growth(Tree, Qo) 

(1) 证 Tree 含 单 个 路 径 P_ then 

(2) ”for 路 径 P 中 结 点 的 每 个 组 合 ( 记 作 p) 

(3) 产生 模式 6 g， 其 支持 度 support = 中 结 点 的 最 小 支持 度 ; 
(4) else for each a; 在 Tree 的 头 部 { 

(S) 产生 一 个 模式 6= di CO， 其 支持 度 SUpport = a ;.suUupport; 
(6) 构造 6 的 条 件 模式 基 ， 然 后 构造 6 的 条 件 FP- 树 Treep; 

(7) 证 TreepB 关 人 then 

(8) 调用 FP_growth (TreeB, PP); } 

































































































































































































































































图 6.10 不 产生 候选 ， 发 现 频 繁 项 集 的 FP- 增 长 算法 


FP- 增 长 方法 将 发 现 长 频繁 模式 的 问题 转换 成 递归 地 发 现 一 些 短 模式 , 然后 与 后 级 连接 。 它 使 用 最 不 
频繁 的 项 作 后 级 ， 提供 了 好 的 选择 性 。 该 方法 大 大 降低 了 搜索 开销 。 
当 数 据 库 很 大 时 ， 构 造 基于 内 存 的 FP- 树 是 不 现实 的 。 一 种 有 趣 的 替换 是 首先 将 数据 库 划 分 成 投影 
数据 库 的 集合 ， 然 后 在 每 个 投影 数据 库 上 构造 FP- 树 并 挖 据 它 。 该 过 程 可 以 递归 地 用 于 投影 数据 库 ， 如 
果 它 的 FP- 树 还 不 能 放 进 内 存 。 
对 FP- 树 方法 的 性 能 研究 表明 : 对 于 挖掘 长 的 和 短 的 频繁 模式 ， 它 都 是 有 效 的 和 可 规模 化 的 ， 并 上 
大 约 比 Apriori 算法 快 一 个 数量 级 。 它 也 比 树 -投影 算法 快 。 树 -投影 算法 递归 地 将 数据 库 投 影 为 投影 数据 
库 树 。 



















































































































































































6.2.5 ”冰山 查询 





























Apriori 算法 可 以 用 来 提高 回答 冰山 查询 的 效率 。 冰 山 查 询 在 数据 挖掘 中 经 常用 别 是 对 购物 篮 分 
析 。 冰 山 查询 在 一 个 属性 或 属性 集 上 计算 一 个 聚集 函数 ， 以 找 出 大 于 某 个 指定 阔 值 的 聚集 值 。 给 定 关 系 
R， 它 具有 属性 a_1, a_2, .… ,a_n 和 4b， 一 个 聚集 函数 agg_f， 冰 山 僵 询 形 如 

select R.a_l, R.a 2,...,R.a_n, agg_f(R.b) 

from relation R 

group by R.a_l,R.a 2,...,R.an 

having agg_f(R.b) >= threshold 


给 定 大 量 输 入 数据 元 组 , 满足 having 子 句 中 的 闵 值 的 输出 元 组 数量 相对 很 少 ,输出 结果 看 作 “ 冰 
山顶 ”， 而 “冰山 ”是 输入 数据 集 。 


例 6.4 一 个 冰山 查询 :假定 给 定 销售 数据 ， 你 想 产生 这 样 的 一 个 顾客 -商品 对 的 列表 ， 这 些 顾 
客 购买 商品 的 数量 达到 3 件 或 更 多 。 这 可 以 用 下 面 的 冰山 查询 表示 








































































































































































































select P.cust_ID, Pltem_ID,SUMI(P.qty) 
from Purchases P 
group by Pcust_ID, Pitem_ID 
having SUMI(P.qty) >=3 
口 
“如 何 回 答 例 6.4 的 查询 ?” ”你 可 能 会 问 。 一 个 常用 的 策略 是 使 用 散 列 或 排序 ， 对 所 有 顾客 -商品 分 
























































组 ， 计 算 聚 集 函 数 SUM 的 值 ， 然 后 删除 被 给 定 的 顾客 购买 的 商品 数量 少 于 3 的 那些 。 相 对 于 处 理 的 元 
组 总 数 ， 满 足 该 条 件 的 元 组 多 半 很 少 ， 为 改进 性 能 留 下 了 空间 。 我 们 可 以 使 用 Apriori 性 质 的 变形 ， 裁 减 
需要 考虑 的 顾客 -商品 对 。 即 ， 不 是 考查 每 个 顾客 购买 的 每 种 商品 的 数量 ， 我 们 可 以 



























































国产 生 cxst_jist， 一 个 总 共 购 买 3 件 或 更 多 商品 的 顾客 表 。 例 如 


Select 
from 
group by 
having 


P.cust_ID 
Purchases P 
P.cust_ID 
SUM(P.gty) >= 3 





加 ”产生 item_list， 被 顾客 购买 的 、 数 量 为 3 或 更 多 的 商品 表 。 例 如 


select 
from 
group by 
having 


























1 先 验 知识 ， 我 人 





P. item_ID 
Purchases P 
P.item_ID 
SUM(P.gty) >= 3 














已 
bo 


Poly 








6.3 ”由 事务 数据 库 挖掘 多 层 关联 规则 


本 节 ， 你 将 
层 中 的 项 。 本 节 还 讨论 检查 见 余 多 层 规则 的 方法 。 














门 可 以 删除 许多 被 散 列 /排序 方法 产生 的 顾客 -商品 对 : 仅 对 cust_list 中 的 顾客 和 在 
item_list 中 的 商品 产生 候选 顾客 -商品 对 。 对 每 个 这 样 的 对 ， 维 持 一 个 计数 。 尽 管 该 方法 通过 预先 裁减 许 
多 对 或 分 组 提高 了 性 能 ， 所 产生 的 顾客 -商品 对 数量 可 能 依然 很 大 ， 不 能 放 进 内 存 。 可 以 将 散 列 和 选 样 策 
略 集成 到 该 过 程 ， 帮 助 提高 该 查询 回答 技术 的 总 体 性 



































学 习 挖 掘 多 层 关联 规则 的 方法 。 多 层 关联 规 则 是 这 样 一 些 规 则 ， 它 们 涉及 多 个 抽象 











6.3.1 多 层 关联 规则 











对 于 许多 应 用 ， 由 于 多 维 数 据 空 间 数据 的 稀 朴 性 ， 在 低层 或 原始 层 的 数据 项 之 间 很 难 找 出 强 关 
联 规则 。 在 较 高 的 概念 层 发 现 的 强 关 联 规则 可 能 提供 普遍 意义 的 知识 。 然 而 ， 对 一 个 用 户 代表 普遍 
意义 的 知识 ， 对 另 一 个 用 户 可 能 是 新 颖 的 。 这 样 ， 数 据 挖掘 系统 应 当 提供 一 种 能 力 ， 在 多 个 抽象 层 














挖掘 关 联 规则 ， 





让 我 们 考察 下 面 的 例子 。 






































并 容易 在 不 同 的 抽象 空间 转换 。 
































例 6.5 假定 给 定 表 6.2 事务 数据 的 任务 相关 数据 集 , 它 是 AllElectronics 分 店 的 计算 机 部 的 销售 
数据 ， 对 每 个 事务 TID 给 出 了 购买 的 商品 。 商 品 的 概念 分 层 在 图 





























概念 到 高 层 更 
(祖先 ) 替换 ， 














对 数据 进行 泛 化 "+。 图 6.11 的 概念 分 层 有 4 层 ， 














念 分 层 中 的 层 














Ara aT 
sofftware， 等 等 。 











6.11 给 出 。 概 念 分 层 定义 了 由 低层 




















般 的 概念 的 映射 序列 。 可 以 通过 将 数据 内 的 低层 概念 




















概念 分 层 中 的 其 高 层 概念 
记 作 0, 1, 2 和 3 层 。 为 方便 计 ， 概 























顶 向 下 编号 , 根 结 点 all (最 一 般 的 抽象 概念 ) 为 第 0 层 。 因 此 , 第 1 层 包 括 computer 
software，printer 和 computer accessory， 第 2 层 包括 desktop computer, laptop computer, education 
sofirware, financial management software, .…, 而 第 3 层 包 括 IBM desktop computer,.…, Microsoft education 





























可 以 在 数据 中 强 涵 存在 。 























第 3 层 是 该 分 层 结构 的 最 特定 的 抽象 层 。 概 念 分 层 可 以 由 熟悉 数据 的 用 户 指 定 ， 也 

















表 6.2 任务 相关 数据 D 
TID 购买 的 商品 
Tl | IBM desktop computer Sony b/w printer 
T2 | Microsoft educationsoftware, Microsoft finacial management software 
T3 | Logitech mouse computer accessory, Ergo-way wrist pad computer accessory 
T4 | IBM desktop computer, Microsoft finacial management software 




















1 概念 分 层 已 在 第 2、4 章 详细 介绍 。 为 了 使 得 本 书 的 没 章 尽 可 能 自 包含 ， 






































我 们 在 此 再 次 给 出 它 的 定义 。 泛 化 在 第 5 

















TS | IBM desktop computer 






















finacial 
management 


educati or 














图 6.11 














表 6.2 中 的 项 在 图 6.11 概念 分 层 的 最 低 
果 “7BM desktop computer” 和 “Sony b/w ( 黑 
很 难 找到 涉及 它们 的 强 关联 规则 。 很 少 人 同时 














































computer 
accenssy 






Logitech| eee 


AllElectronics 计算 机 商品 的 概念 分 层 





层 。 在 这 种 原始 层 很 难 
白 ) Printer” 每 个 都 在 很 少 一 部 分 事务 中 出 现 ， 则 可 能 
购买 它们 ， 使 得 “{ IBM desktop computer, Sony b/w 


E 找 出 有 趣 的 购买 模式 。 例 如 ， 如 























printer }” 不 太 可 能 满足 最 小 支持 度 。 人 然而， 考 卡 将 “Sony bw， printer” 泛 化 到 “b/w printer”。 
在 “IBM desktop computer” 和 “b/w printer” 之 间 比 在 “IBM desktop computer” 和 和 “Sony b/w printer” 
可 望 更 容易 发 现 强 关联 。 类 似 地 ， 许 多 人 同时 购买 “computer” 和 “printer”， 而 不 是 同时 购买 特定 




















的 “IBM desktop computer” 和 “Sony pm printer”。 换 人 句 训 
computer, pp printer }” 和 “{ computer, printer }”, 比 








6 说, 包含 更 一 般 项 的 项 集 , 如 “{ IBM desktop 
又 包含 原始 





层 数据 的 项 集 ， 如 “{ JBM desktop 








computer, Sony pv Printer }”， 更 可 能 满足 最 小 文 持 度 。 





联 比 仅 在 原始 层 数据 之 间 更 容易 找 。 口 


1 上 共有 概念 分 
































6.3.2 ”挖掘 多 层 关 联 规则 的 方法 





“我 们 如 何 使 用 概念 分 层 有 效 地 挖掘 多 
方法 。 一 般 地 ， 可 以 采用 自 顶 向 下 策略 ， 
概念 层 累 加 计数 计算 频繁 项 集 ， 



































慨 的 关联 规则 挖掘 产生 的 规则 称 为 多 层 关联 规则 ， 因 


层 关联 规则 ? ”让 我 们 看 
概念 层 1 开始 向 下 ， 到 较 低 的 更 特定 的 概念 层 ， 在 每 个 
直到 不 能 再 找到 频繁 项 集 。 即 ,一 日 


因此 ， 在 多 个 概念 层 的 项 之 间 找 有 趣 的 关 

















为 它们 考虑 多 个 概念 层 。 











上 5 去 


3 




















于 支持 度 - 置 信 度 框架 的 


























且 找 出 概念 层 1 的 所 有 频繁 项 集 ， 




















就 开始 在 第 2 层 找 频繁 项 集 , 如 此 下 去 。 对 于 每 一 层 , 可 以 使 














或 它 的 变形 。 这 种 方法 有 许多 变形 ， 介 绍 如 下 ， 并 用 图 


























闵 值 。 例如, 在 











computer”)。“ computer” 和 “laptop computer” 都 


computer (suppot = 10%%) 





层 1 

min_sup=5% 

层 2 。 
tt laptop computer (suppot = 日) 


集 已 被 考察 ， 而 粗 边框 的 矩形 指出 已 考察 的 项 或 项 集 是 频繁 的 。 


对 于 所 有 层 使 用 一 致 的 支持 度 〔 称 作 一 致 支持 度 ): 
图 6.12 中 ， 整 个 使 用 最 小 支持 度 阔 值 5% 例如， 对 于 1 
是 频繁 的 ， 但 “desktop computer” 不 是 。 

















| 发 现 频 繁 项 集 的 任何 算法 , 如 Apriori 
图 6.16 解释 。 图 中 矩形 指出 项 或 项 














6.12 到 
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层 挖 据 时 ， 使 用 相同 的 最 小 支持 度 


“computer” 到 “laptop 


在 每 一 













































desktop computer (suppoit = 4»%) 

















图 6.12 具有 

















致 文 持 度 的 多 层 挖掘 























使 用 一 致 的 最 小 支持 度 阔 值 时 ， 搜 索 过 程 是 简单 的 ， 


并 且 用 户 也 只 需要 指定 一 个 最 小 支持 














度 阔 值 。 根 据 祖 先是 其 后 代 的 








馈 集 的 和 




















它 包含 其 祖先 不 具有 最 小 文 持 度 的 项 。 
然而 ， 一 致 支持 度 方法 有 一 些 困 





IH 识 ， 可 以 采用 优化 策略 ， 搜 索 时 避免 考察 这 样 的 项 集 ， 


























得 那么 频繁 。 如果 最 小 支持 度 闵 值 设 置 太 高 ,可 能 丢掉 出 现在 较 低 抽 象 





如 果 阔 值 设置 太 低 ,可 能 会 产生 
在 较 低层 使 用 递减 的 支持 度 〈 称 作 递减 支 持 度 ): 每 个 抽象 层 有 它 




















任 。 较 低层 次 抽象 的 项 不 大 可 能 


较 高 层次 抽象 的 项 出 现 











居中 有 意义 的 关联 规则 。 














现在 较 高 抽象 层 的 无 兴趣 的 关联 规则 。 这 导致 了 下 面 的 方法 。 





4 











己 的 最 小 支持 度 阐 值 。 抽 
































象 层 越 低 ， 对 应 的 阔 值 越 小 。 例 如 ,在 图 6.13, 层 1 和 层 2 的 最 小 支持 度 阔 值 分 别 为 5% 和 3%。 














用 这 种 方法 ,“computer 和 “japtop computer” 和 “desktop computer” 痢 是 频繁 的 。 


层 1 


min_sup=5% 


层 2 


min_sup= 3% 








laptop computer (suppot = 6%%) 


图 6.13 
对 于 具有 递减 支持 度 的 多 层 关联 规则 挖 扩 








cormputer (suppot = 10%%) 














具有 递减 文 持 度 的 多 












desktop cornpnuter (suppoit = 中 


层 挖 所 
昨 ， 有 许多 可 用 的 搜索 策略 ， 包 括 : 















































逐 层 独立 : 这 是 完全 的 宽度 搜索 ， 没 有 频繁 项 集 的 背景 知识 用 于 剪 校 。 考 察 每 一 个 结 点 ， 不 管 





它 的 父 结 点 是 否 是 频繁 的 
层 交 叉 用 单项 过 滤 : 
句 话说 , 我 们 1 
否则 ， 它 的 子孙 将 
































层 1 


min_sup=12% 


层 2 


min_sup=3% ”desktop computer (未 考察 ) 





pn 
一 个 第 


| 搜索 
computer” 和 “desktop computer”) 将 不 被 考察 ， 因 








名 




















<| 6.14 








集 是 频繁 的 。 例 如 ， 在 图 
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L 有 递减 支持 度 的 多 层 挖 据 ， 使 
层 交 叉 用 -项 集 过 滤 : 一 个 第 i 层 的 天 项 集 被 考察 ， 当 | 


i 层 的 项 被 考察 ， 当 | 
较 一 般 的 关联 考察 更 特定 的 关联 。 如 果 一 个 结 点 是 频繁 的 , 它 的 子女 将 被 考察 ; 
pp 前 枝 。 例 如 ， 在 图 6.14 中 ,“computer” 的 后 代 结 点 〈( 即 ,， “laptop 
为 “computer” 不 是 频繁 的 。 


























10%%) 


computer (suppott = 


昌 仅 当 它 在 第 (i-1) 






































居 的 父 结 点 是 频繁 的 。 换 一 








laptop computer ( 未 考察 ) 
































6.15 1 




















日 仅 当 它 在 第 (1) 层 的 对 应 父 纪 
，2- 项 集 “{computer printer}” 是 频繁 的 ， 因 而 结 点 “ {laptop 





单项 过 滤 











AN 





computer, b/w printer}”、“ {laptop computer, color printer}”、“ {desktop computer, b/w printer}” 
和 “{desktop computer; color printer} ”被 考察 。 


层 ! 


min_sup= 5% 


层 2 


min_sup= 2% 





laptop cormmputer 


atud bi printer 
tsupport =1%%) 





laptop computer 
ad color printer 


(suppott = 2%%) tsupport 





区 











0.15 





共有 递减 文 持 度 的 多 层 挖掘 








~ 





“如 何 比较 这 些 方 法 ? ” 逐 层 独 立 策 略 的 条 件 很 松 ， 可 能 导 
出 一 些 不 太 重 要 的 关联 ,例如 , 如 果 “computer furniture” 很 少 购买 , 考察 特定 的 “computer chair” 


cormputer and printer (support = 7%%) 


desktop cormmputer 
and bi printer 


1%) 





致 在 低 





desktop computer 
ad color printer 
【Support = 3%%) 





使 用 层 交 叉 用 大 项 集 过 小， 其 中 大 2 





慨 考 察 大 量 非 频繁 的 项 ， 找 


是 否 与 “Japtop cowputer” 关 联 没什么 意思 。 然 而 ， 如 果 “computer accessories” 经 常 出 售 


考察 “Japtop” 与 “mouse” 之 间 是 否 存 在 关联 购买 模式 可 能 是 有 意义 的 。 
层 交 叉 用 大 项 集 过 滤 策 略 允 许 系统 仅 考 察 频繁 项 集 的 子女 。 这 一 限制 可 能 太 强 ， 












































通常 没有 多 





少 -项 集 组 合 后 仍 是 频繁 的 (特别 是 当 k> 2 时 )。 因 此 ， 有 些 有 价值 的 模式 可 能 被 该 方法 过 滤 掉 。 



































怀 交 又 用 单项 过 滤 策 略 是 上 两 个 极端 的 折 表 。 然 而 ， 这 种 方法 也 可 能 丢失 低层 项 之 间 的 关联 ; 




















根据 递减 的 最 小 支持 度 ， 这 些 项 是 频繁 的 ， 但 它们 的 祖先 不 满足 最 小 支持 度 〈 由 于 每 层 
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的 支持 度 阐 


可 能 不 同 )。 例 如 ， 如 果 根 据 第 i 层 的 最 小 支持 度 六 值 ，“color monitor” 在 第 i 层 是 频繁 的 ， 但 是 


它 在 (i-1) 层 的 父 结 点 “monitor”, 根据 第 (-1) 层 的 最 小 支持 度 阔 值 , 不 是 频繁 的 , 则 频繁 的 关联 “desktop 











computer 之 color monitor” 将 丢失。 
































民 交 叉 单 项 过 滤 策 略 有 一 个 修改 版 本 ， 称 作 受 控 的 层 交 叉 单 项 过 滤 策 略 。 可 以 设置 一 个 称 作 层 


传递 阔 值 的 贱 值 ， 用 于 向 较 低层 “传递 ”相对 频繁 的 项 称 作 子 频繁 项 )。 换 句 话说 ， 如 果 满 足 层 














传递 闵 值 ， 则 该 方法 允许 考查 不 满足 最 小 文 持 度 闵 值 项 的 子女 。 每 个 概念 层 可 以 有 它 自 














己 的 层 传递 




















闵 值 。 通 常 ， 对 于 一 个 给 定 层 ， 层 传递 闵 值 设置 为 下 一 层 的 最 小 支持 度 阔 值 和 给 定 层 的 最 小 支持 度 
































闵 值 之 间 的 一 个 值 。 用 户 可 以 在 较 高 层 选 择 “ 下 滑 ” 或 降低 层 传 递 闹 值 ， 使 得 子 频 繁 项 


















































低层 被 考察 。 降低 层 传 递 阔 值 到 最 低层 的 最 小 支持 度 阔 值 将 使 得 项 的 所 有 后 代 被 考察 。 例 如 ， 在 图 






































的 后 代 在 较 





6.16 中 ,设置 层 1 的 层 传递 闵 值 (level_passage_sup) 为 8%, 使 得 第 2 层 的 “laptop computer” 和 “desktop 














computer” 被 考察 ， 并 发 现 是 频繁 的 ， 尽 管 它 们 的 父 结 点 “computer” 不 是 频繁 的 。 通 





过 增加 这 种 
























































机 制 ， 用 户 对 进一步 控制 多 概念 层 上 的 挖掘 过 程 有 了 更 多 的 灵活 性 ， 同 时 减少 无 意义 关联 的 考察 和 














ae 






层 1 
min_sup=12% 
level passage_ Sup=8% 


laptop cormputer (suppot = 6%%) 


6.16 ”多 层 挖 据 ， 受 控 的 层 交 又 单 项 过 滤 
迄今 为 止 ， 我 们 的 讨论 集中 在 发 现 这 样 的 频繁 项 集 ， 它 的 所 有 项 都 属于 同一 概念 层 


computer (suppot = 10%%) 


层 2 


min_sup=3% 














而 












































desktop cornputer (suppoit = 4d) 





。 这 可 能 导 


致 形 如 “computer 过 printer”( 其 中 , ”computer” 和 ”printer”* 都 在 概念 层 1) 和 “desktop computer 一 DB 
printer”( 其 中 ，”*desktop computer”* 和 ”b/w printer”* 都 在 给 定 概念 层 的 第 2 层 ) 的 规则 。 假 定 我 们 想 
要 发 现 跨 越 概念 层 边 界 的 规则 ， 如 “computer 二 b/w printer”， 规则 中 的 项 不 要 求 属于 同一 概念 层 。 






































这 些 规则 称 作 交叉 层 关联 规则 。 




















“如 何 挖掘 交叉 层 关 联 规则 ? ”如 果 挖 据 由 层 i 到 层 j 的 关联 ， 其 中 层 j 比 层 1 更 特定 〈 即 ， 在 















































较 低 的 抽象 层 )， 则 应 当 使 用 层 j 的 最 小 支持 度 阔 值 ， 使 得 层 j 的 项 可 以 包含 在 分 析 中 。 











6.3.3 ”检查 见 余 的 多 层 关联 规则 

















概念 分 层 在 数据 挖掘 中 是 有 用 的 ， 因 为 它们 允许 不 同 的 抽象 层 的 知识 发 现 ， 如 多 层 关 联 规则 。 
然而 ， 当 挖掘 多 层 关 联 规则 时 ， 由 于 项 之 间 的 “祖先 ”关系 ， 有 些 发 现 的 规则 将 是 元 余 的 。 例 如 ， 
考虑 下 面 的 规则 ， 其 中 ， 根 据 图 6. 11 的 概念 分 层 ，”desktop computer”* 是 ”IBY desktop computer” 





















































的 祖先 。 
desktop computer 一 b/w printer, [support=8%, confidence=70%/] 
(6. 9) 
TBMY desktop computer 一 b/w printer, [support=2%, confidence=72%] 
(6. 10) 
“如 果 挖 掘 出 规则 6.9 和 6. 10， 那么 后 一 个 规则 是 有 用 的 吗 ? ”你 可 能 怀疑 “ 它 真 的 提供 新 额 


















































的 信息 吗 ? ”如 果 后 一 个 具有 较 小 一 般 性 的 规则 不 提供 新 的 信息 ， 应 当 删 除 它 。 让 我 们 看 看 如 何 来 









































测定。 规则 R1 是 规则 R2 的 祖先 ， 如 果 将 R2 中 的 项 用 它 在 概念 分 层 中 的 祖先 蔡 换 ， 能 够 得 到 RI1。 








例如 ， 规 则 (6.9) 是 规则 (6. 10) 的 祖先 ， 因 为 ”desktop comwputez 是 ”7BN desktop computer” 的 祖 
先 。 根 据 这 个 定义 ， 一 个 规则 被 认为 是 见 余 的 ， 如 果 根 据 规则 的 祖先 ， 它 的 支持 度 和 置信 度 都 接近 
于 “期 望 ” 值 。 作 为 解释 , 假定 规则 (6. 9) 具有 70% 置 信和 度 ，8% 支 持 度 ,并 且 大 约 四 分 之 一 的 ”desktop 
computer”* 销 售 是 ”IBY desktop computer”"。 可 以 期 望 规则 (6. 10) 具有 大 约 70% 的 置信 和 度 〈 由 于 所 有 
的 ”IBMY desktop computer" 样 本 也 是 ”desktop computer 样 本 ) 和 2%( 即 ，8%x1/4)〉 的 支持 度 。 
如 果 确 实 是 这 种 情况 ， 规 则 (6. 10) 不 是 有 趣 的 ， 因 为 它 不 提供 附加 的 信息 ， 并 且 它 的 一 般 性 不 如 规 
则 (6.9) 。 





























































































































6.4 由 数据 库 和 数据 仓库 挖掘 多 维 关 联 规则 








本 节 ， 你 将 学 习 控 掘 多 维 关 联 规则 的 方法 。 多 维 关联 规则 是 涉及 多 个 属性 或 谓词 的 规则 〈 例 如 ， 
关于 顾客 的 buys 和 顾客 的 age 的 规则 )。 这 些 方法 可 以 根据 他 们 对 量化 属性 的 处 理 组 织 。 

















6.4.1 多 维 关联 规则 






























































到 本 章 这 里 ， 我 们 研究 了 蕴涵 单个 谓词 ， 即 谓词 buys 的 关联 规则 。 例 如 ， 在 挖掘 AllElectronics 
数据 库 时 ， 我 们 可 能 发 现 布尔 关联 规则 “7BM desktop computer” 芝 Sony b/w printer”， 它 也 可 以 写 
成 























buys(X, TBHM desktop computer”) Sbuys(X,”Sony b/w printer”) 
(6.11) 


其 中 , X 是 变量 ， 代 表 在 AllElectronics 购物 的 顾客 。 沿 用 多 维 数据 库 使 用 的 术语 ， 我 们 把 每 个 
不 同 的 谓词 称 作 维 ,这 样 ,我 们 称 :规则 (GT 为 单 维 或 维 内 关联 规则 因为 它们 包含 单个 不 同 谓词 ( 即 ， 
buys) 的 多 次 出 现 〈 即 ， 谓 词 在 规则 中 出 现 多 次 )。 正 如 我 们 在 本 章 的 前 几 节 看 到 的 ， 这 种 规则 通常 
事务 数据 挖掘 。 
然而 ， 假 定 不 是 使 用 事务 数据 库 ， 销 售 和 相关 数据 存放 在 关系 数据 库 或 数据 仓库 中 。 根 据 定义 ， 
这 种 存储 是 多 维 的 。 例 如 ， 除 记录 购买 的 商品 之 外 ， 关 系数 据 库 可 能 记录 与 商品 有 关 的 其 它 属性 ， 
如 购买 数量 ， 或 价格 ， 或 销售 分 店 的 地 址 。 另 外 ， 关 于 购物 顾客 的 信息 ， 如 顾客 的 年 龄 、 职 业 、 信 
誉 度 、 收 入 和 地 址 等 也 可 能 存储 。 将 数据 库 的 每 个 属性 或 数据 仓库 的 每 个 维 看 作 一 个 谓词 ， 这 样 就 
能 挖掘 多 维 关 联 规则 ， 如 


age(X,"20...29") 和 occupation(X," student") = buys(X," [laptop") (6.12) 


涉及 两 个 或 多 个 维 或 谓词 的 关联 规则 称 为 多 维 关 联 规则 。 规 则 (6.12) 包 含 三 个 谓词 (age， 
occupation 和 buys)， 每 个 在 规则 中 仪 出 现 一 次 。 因 此 ， 我 们 称 它 具 有 不 重复 谓词 。 具有 不 重复 谓词 
的 关联 规则 称 作 维 间 关 联 规则 。 我 们 也 对 挖 气 具 有 重复 谓词 的 关联 规则 感 兴趣 。 这 种 规则 包含 其 些 
谓词 的 多 次 出 现 ， 称 作 混合 维 关联 规则 。 这 种 规则 的 一 个 例子 是 规则 (6.13)， 其 中 谓词 puys 是 重复 
的 。 


age(X, “20...29”) 和 buys(X, “laptop”) > buys(X, “b/w printer”) (6.13) 


注意 ， 数 据 库 属性 可 能 是 分 类 的 或 量化 的 。 分 类 属性 具有 有 限 个 不 同 值 ， 值 之 间 无 序 〈 例 如 ， 
occupation, brand, color)。 分 类 属性 也 称 标 称 属性 ， 因 为 它们 的 值 是 “事物 的 名 字 ”。 量化 属性 是 数 
值 的 ， 并 在 值 之 间 具 有 一 个 蕴涵 的 序 ( 例 如 ，age, income, price)。 挖 掘 多 维 关 联 规则 的 技术 可 以 根 
据 量 化 属性 的 处 理 分 为 三 类 

第 一 种 方法 ， 使 用 预定 义 的 概念 分 层 对 量化 属性 离散 化 。 这 种 离散 化 在 挖 据 之 前 进行 。 例 如 ， 
income 的 概念 分 层 可 以 用 于 以 区 间 值 ， 如 “0...20K”、“21...30K”“31...40K” 等 ， 蔡 换 属性 的 原来 
的 数值 值 。 这 里 ， 离 散 化 是 静态 的 、 预 确定 的 。 离 散 化 的 数值 属性 具有 区 间 值 ， 可 以 象 分 类 属性 一 
样 处 理 〈 每 个 区 间 看 作 一 类 )。 我 们 称 这 种 方法 为 使 用 量化 属 性 的 囊 态 离散 化 挖掘 多 维 关联 规则 。 

第 二 种 方法 ， 根 据 数据 的 分 布 ， 将 量化 属性 离散 化 到 “ 箱 ”。 这 些 箱 可 能 在 挖掘 过 程 中 进一步 组 
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合 。 离 散 化 的 过 程 是 动态 的 ， 以 满足 某 种 挖掘 标准 ， 如 最 大 化 所 挖掘 的 规则 的 置信 度 。 由 于 该 策略 
将 数值 属性 的 值 处 理 成 量 ， 而 不 是 预定 义 的 区 间或 分 类 ， 由 这 种 方法 挖掘 的 关联 规则 称 为 量化 关联 
规则 。 
第 三 种 方法 ， 量 化 属性 离散 化 ， 以 紧 扣 区 间 数 据 的 语义 。 这 种 动态 离散 化 过 程 考虑 数据 点 之 间 
的 距离 。 因 此 ， 这 种 量化 关联 规则 称 作 基于 距离 的 关联 规则 。 
让 我 们 逐个 研究 这 些 挖掘 多 维 关 联 规则 方法 。 为 简明 起 见 ， 我 们 将 讨论 限于 维 间 关 联 规则 。 注 
， 不 是 搜索 频繁 项 集 〈 象 单 维 关联 规则 挖掘 那样 )， 在 多 维 关 联 规则 挖 握 中， 我 们 搜索 频繁 谓词 
。 大 -谓词 集 是 包含 下 个 合 取 谓词 的 集合 。 例 如 ， 规 则 (6.12) 中 的 谓词 集 {fage, occupation, buys} 是 3- 
词 集 。 类 似 于 项 集 使 用 的 记号 ， 我 们 用 表示 频繁 -谓词 集 的 集合 。 
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6.4.2 ”使 用 量化 属性 的 静态 离散 化 挖 据 多 维 关联 规则 








在 这 种 情况 下 ， 量 化 属性 使 用 预定 义 的 概念 分 层 ， 在 挖掘 之 前 离散 化 ， 数 值 属 性 的 值 用 区 间 替 
代 ， 如 果 期 望 的 话 , 分 类 属性 可 以 泛 化 到 较 高 的 概念 层 。 如 果 任 务 相 关 的 结果 数据 存放 在 关系 表 中 ， 
则 Apriori 算法 只 需要 稍 加 修改 就 可 以 找 出 所 有 的 频繁 谓词 ， 而 不 是 频繁 : 《 即 ， 通过 搜索 所 有 
的 相关 属性 ， 而 不 是 仅 搜 索 一 个 属性 ， 如 buys) 。 找 出 所 有 的 频繁 大 谓 词 将 需要 有 或 ft1 次 表 扫 
描 。 其 它 策略 ， 如 散 列 、 划 分 和 选 样 可 以 用 来 改进 性 能 。 
替换 地 ， 变 换 后 的 任务 相关 的 数据 可 以 存放 在 数据 方 中 。 数 据 方 很 适合 挖掘 多 维 关 联 规 则 ， 
于 根据 定义 ， 它 们 是 多 维 的 。 数 据 方 和 它们 的 计算 已 在 第 2 章 详细 讨论 。 回 顾 一 下 ， 数 据 方 由 方 体 
的 格 组 成 , 方 体 是 多 维 数据 结构 。 这 种 结构 可 以 存放 作 以 及 聚集 、 分 组 信息 。 图 6.17 
给 出 了 一 个 方 体 的 格 ， 定 义 维 age，income 和 buys 的 数据 方 。n- 维 方 体 的 单元 用 于 存放 对 应 产 谓词 
集 的 计数 或 支持 度 。 基 本 方 体 按 age, income 和 buys 聚集 了 作 和 相关 的 所， 2 D Se income) 
按 age 和 income 聚集 ，0-D“〔〈 顶 点 ) 方 体 包含 任务 相关 数据 中 事务 的 总 数 ， 
















































































































































































































































































































































































0-D( 顶点 ) 方 体 


1-] 方 体 


2-] 方 体 





[age, income, buys) 3-DK 基本 ) 方 体 


图 6.17 方 体 的 格 , 形成 3-D 数据 方 。 每 个 方 体 代表 一 个 不 同 
分 组 。 基 本 方 体 包含 三 个 谓词 age, income 和 buys 

由 于 数据 仓库 和 OLAP 技术 的 日 益 增长 的 使 用 ， 包 含 用 户 感 兴趣 的 维 的 数据 方 可 能 已 经 存在 ， 
完全 物化 。 “如果 是 这 种 情况 ， 我 们 如 何 去 找 频繁 谓词 集 ? ”可 以 使 用 一 种 类 似 于 Apriori 所 用 的 
策略 ， 基 于 先 验 知识 : 频繁 谓词 集 的 每 个 子 集 也 必须 是 频繁 的 。 这 个 性 质 可 以 用 于 减少 产生 的 谓词 
集 候 选 数量 。 

在 没有 挖掘 任务 相关 数据 方 存在 时 ， 必 须 创 建 。 第 2 章 介 绍 了 数据 方 快速 、 有 效 计算 的 算法 。 
这 些 算 法 可 以 修改 ， 在 数据 方 构造 时 搜索 频繁 项 集 。 

























































































































































































6.4.3 ”挖掘 量化 关联 规则 

















量化 关联 规则 是 多 维 关联 规则 ， 其 中 数值 属性 动态 离散 化 ， 以 满足 某 种 挖掘 标准 ， 如 最 大 化 控 
掘 规则 的 置信 度 或 紧凑 性 。 在 本 小 节 ， 我 们 将 特别 关注 如 何 挖掘 左 部 有 两 个 量化 属性 ， 右 部 有 一 个 
分 类 属性 的 量化 关联 规则 ， 例 如 

4 IAA 


quan 












































quan2 一 A 


其 中 ，Agwanj 和 4wuz2 是 在 量化 属性 的 区 间 《其 中 ， 区 间 动 态 地 确定 ) 上 测试 ，4ew 测试 任务 相关 数 
据 的 分 类 属性 。 这 种 规则 称 作 2- 维 量化 关联 规则 ， 因 为 它们 包含 两 个 量化 维 。 例 如 ， 假 定 我 们 关心 







































































象 age 和 income 这 样 的 量化 属性 对 和 这 档 


量化 关联 规则 的 一 个 例子 是 

















的 顾客 喜欢 什么 类 型 的 电视 机 之 间 的 关联 关系 。 这 种 2-D 








Qge(X 30...39) 和 income(X ,42K...48K”) 一 buys(X, "high resolution TV”) 





(6.15) 


“如 何 找 出 这 种 规则 ? ”让 我 们 看 看 系统 ARCS (Association Rule Clustering System， 关 联 规则 


聚 类 系统 ) 使 用 的 方法 ， 其 
属性 条 件 的 2-D 栅 格 上 。 然 


可 
[E 











awl 
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49 想 源 于 
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分 箱 。 量 化 属性 可 能 共有 


















































个 age 的 可 能 值 在 一 个 轴 上 赋予 一 个 唯 




















的 范围 划分 为 区 间 。 这 些 区 
即 ， 区 间 被 看 作 “ 箱 ”。 三 种 常用 的 分 箱 策 略 是 : 














图 形 处 理 
后 ， 搜 索 栅 格 点 




















的 聚 类 ， 








。 本 质 上 ， 该 方法 将 量化 属性 对 映射 到 满足 给 定 分 类 
由 此 产生 关联 规则 。 下 面 是 ARCS 涉及 的 步骤 : 
很 宽 的 取 值 范围 ， 定 义 它 们 的 域 。 如 果 我 们 以 age 和 income 为 轴 ， 每 






































的 位 置 ; 



































类 似 地 ， 每 个 income 的 可 能 值 在 另 一 个 轴 上 赋予 
个 唯一 的 位 置 ， 想 想 2-D 栅 格 会 有 多 么 大 ! 为 了 使 得 栅 格 压缩 到 可 管理 的 尺寸 ， 我 们 将 量化 属性 



































司 是 动态 的 ， 在 挖 











" ”等 宽 分 箱 : 每 个 箱 的 区 间 长 度 相 同 ， 

















加 期 间 它 们 可 能 进一步 合并 。 这 种 划分 过 程 称 作 分 箱 ; 





”等 深 分 箱 : 每 个 箱 赋予 大 致 相同 个 数 的 元 组 ， 和 


" ”基于 同 质 的 分 箱 : 条 








有 














的 大 小 这 样 确 





定 ， 使 得 






































每 个 箱 中 的 元 组 一 致 分 布 。 
在 ARCS 中 ， 使 用 等 宽 分 箱 ， 每 个 量化 属性 的 箱 尺 寸 由 用 户 输入 。 对 于 涉及 两 个 量化 属性 的 每 





























种 可 能 的 箱 组 合 ， 创 建 一 个 2-D 数组 。 每 个 数组 单元 存放 规则 右 部 分 类 属性 每 个 可 能 类 的 对 应 的 计 
数 分 布 。 通 过 创建 这 种 数据 结构 ， 任 务 相 关 的 数据 只 需要 扫描 一 次 。 基 于 相同 的 两 个 量化 属性 ， 同 
样 的 2-D 数组 可 以 用 于 产生 分 类 属性 的 任何 值 的 规则 。 分 箱 在 第 3 章 也 进行 了 讨论 。 




















找 频 繁 谓词 集 。 一旦 包含 每 个 分 类 计数 分 布 的 




























































































2-D 数组 设置 好 ， 就 可 以 扫 搬 它 ， 以 找 出 也 满足 
































最 小 置信 度 的 频繁 谓词 集 〈 满 足 最 小 文 持 度 )。 然 后 ， 使 用 类 似 于 6.2.2 小 节 介 绍 的 规则 产生 算法 ， 














这 些 谓词 集 产 生 关联 规则 
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和 income， 预 测 规则 右 端 条 他 














关联 规则 聚 类 。 将 上 一 步 得 到 的 强 关 联 规则 映射 到 2-D 栅 格 上 。 图 6.18 显示 给 定量 化 属性 age 
F buys(X, ”high resolution TV”) 的 2-D 量化 关联 规则 。 四 个 “x” 对 应 于 

















规则 
age(X,34) 入 income(X,”31K...40K”’) 一 buys(X, ”high resolution TV”) (6.15) 
age(X,35) 和 income(X,”31K...40K”’) = buys(X, "high resolution TV”) (6.16) 
age(X,34) 和 income(X,”41K...50K”) 一 buys(X, "high resolution TV”) (6.17) 
age(X,35) 和 A income(X,”41K...50K”) 一 buys(X, "high resolution TV”) (0.18) 


“我 们 能 找到 一 个 更 简单 的 规则 蔡 换 上 面 四 个 规则 吗 ? ”注意 ,这些 规则 都 相当 “接近 ” 在 栅 
格 中 形成 聚 类 。 的 确 ， 这 些 规则 可 以 组 合 或 “ 聚 ”在 一 起 ， 形 成 下 面 的 规则 (6.19)， 它 更 简单 ， 将 上 









































面 四 个 规则 汇总 在 一 起 ， 并 取代 它们 。 








age(X,”34...35”) 和 income(X,”31K...50K”’) 一 buys(X, "high resolution TV”) 





(6.20) 


ARCS 使 用 聚 类 算法 做 这 件 事 。 该 算法 扫描 栅 格 ， 搜 索 规 则 的 矩形 聚 类 。 用 这 种 方法 ， 出 现在 
规则 聚 类 中 的 量化 属性 的 箱 可 能 进一步 合并 ， 从 而 对 量化 属性 动态 地 离散 化 。 
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这 里 介 & 
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平滑 技术 ， 








帮助 消 








Ff 
下 
[E 


性 可 以 出 现在 规则 


除数 据 ! 





图 6.18 


的 基于 栅 格 的 技术 假定 初始 关联 # 
噪音 和 局 外 者 。 算 形 聚 类 可 能 过 
基于 其 它 形状 的 区 域 ， 看 来 能 够 更 适合 数据 ， E 
已 经 提出 了 一 种 非 基 于 




















的 两 端 。 








电 





避 
:度量 如 组 合 ， 该 度 划 











量化 














性 
注释 。 


6.4.4 挖掘 基于 距离 


前 一 小 节 我 们 介 2 
。 然 而 ， 这 种 方法 可 





例如 ， 
的 划分 看 来 最 直观 ， 
很 远 的 值 放 在 一 组 ( 


然 ， 基于 距离 


















































生 更 有 意义 的 离散 化 。 
关联 规则 的 一 个 缺点 


在 现实 中 ， 更 可 
表达 这 种 接近 性 











征 























基于 距离 的 关联 规则 。 
基于 距离 的 关联 规则 。 


有 表 6. 

















“如 何在 第 一 遍 形 成 聚 类 ? ”这 里 ， 


考虑 表 6.3 中 


是 有 用 的 。 
关联 规则 挖掘 。 这 种 规 由 


的 关联 规则 




















属性 


因为 它 








1 于 划分 而 导致 的 信 


了 量化 关联 规则 ， 其 量化 
能 不 能 紧 扣 


price 的 数据 ， 
将 接近 的 值 分 在 同 
例如 ，[22，50] ) 。 
的 划分 既 考 虑 稠密 性 





表示 购买 高 分 辨 TV 的 顾客 元 组 的 2-D 栅 格 


砚 则 可 以 聚焦 到 入 


分 简 

















日 需要 更 大 上 
F 栅 格 的 技术 ， 发 现 更 一 般 的 关联 规则 ， 
在 这 种 技术 下 ， 














量化 属性 使 用 等 




















属性 





始 用 分 














区 间 数 据 的 语义 ， 








因 








民 据 等 








一 区 间 内 





等 宽 划 


或 区 间 内 的 点 数 ， 














每 个 量化 属性 的 





宽 和 有 





分 可 能 将 很 近 的 值 分 





的 计 


j 特 深 介 


桂林 分 

















量 。 











E 形 区 域 。 在 进行 聚集 前 ， 可 以 使 用 
化 数据 。 已 经 提 





出 了 一 些 蔡 换 技 术 ， 





中 任意 个 数 的 量化 属性 和 分 类 





深 分 箱 动态 划分 ， 
县 于 失 。 关 于 这 些 ARCS 蔡 代 方法 的 引文 ， 参 见 文献 


} 箱 的 方法 离散 化 ， 然 后 将 结果 
为 它 未 考虑 数据 点 之 间或 

















划分 根据 部 分 完全 























区 间 组 
区 间 之 间 的 相对 距 























箱 与 基于 距离 的 划分 对 比 。 基 于 距离 
(例如 ，[20, 22] 


)。 相 比 之 下 ， 等 深 划分 将 

















又 考虑 一 个 区 











葡 间 可 以 通过 聚 











全 已 
有 





是 它们 不 允许 近似 的 
item_type(X, ”electronic”) 和 manufacture(X, ”foreign”) = price(X,$200) 


的 是 国外 的 电子 产品 








属性 
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集 该 属性 的 值 





间 内 点 的 “接近 性 ”， 











， 并 创建 没有 数据 的 区 间 。 显 
这 帮助 产 








建立 。 





值 。 考 虑 关联 规 贝 


二 的 价格 大 约 $200， 而 不 
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三 } 


(6.20) 


恰好 $200。 使 得 关联 规则 可 以 











注 
I 紧 扣 区 


第 一 
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意 ， 文 持 度 和 置信 和 度 
xX 间 数 据 的 语义 ， 7 
遍 使 用 聚 类 找 出 








度量 不 考虑 属 
并 允许 数据 值 的 近似 。 
区 间或 聚 类 。 








分 箱 方法 ， 如 等 宽 和 等 深 ， 不 能 总 是 紧 扣 








MAE 


性 值 的 接近 性 。 





第 二 遍 搜 索 频 繁 地 一 起 出 现 的 聚 类 组 得 到 














这 导致 基于 距离 的 
一 个 两 遍 算 法 可 以 用 于 挖掘 




















区 间 数 据 的 语义 





price($) 


全 
等 宽 


(宽度 $10) 

















基于 距离 
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20 
22 
50 
51 
33 








读 第 8 草 ， 以 及 本 章 文献 

















tw 投影 到 属性 身 
两 两 距离 的 平均 值 。 























定义 








距离 度量 可 以 使 用 诸如 欧 








投影 到 X 上 时 越 接近 。 
华人 全 .车 


汪 口 ， 























关联 规则 。 假 定 





2 两 个 元 组 t1=(X11,X12,…， 


Euclidean _d(ti,t, ) = 


法 ， 如 第 8 章 介绍 的 那些 
第 二 遍 ， 将 聚 奖 组 合 ， 


[0,10] [ 
[11,20] [ 
[21,30] [ 
[31,40] 
[41,50] 
[51,60] 

















人 









































因此 ， 直 径 度量 评估 聚 类 的 稠密 性 。 























Xin) 和 bp=(x2lX22X2m 之 间 的 欧 几 旦 


二 多 (x 








我 们 给 出 如 何 形成 聚 类 
注释 中 给 出 的 关于 基于 距离 的 关联 规 由 
二 X 的 集合 。 
































形成 基于 距离 的 关联 规则 。 
X 是 属性 集 {age}， 而 了 是 属性 集 {income}。 我 们 想 丰 





聚 类 


< 


日 于 该 挖掘 过 程 的 第 


昌 距 离 


[7,7] 
[20,22] 
[50,53] 


的 直观 介绍 。 
上 的 引文 。 设 S[XJ 是 NN 个 元 组 4, to 
直径 度量 ， 评 估 元 组 的 接近 性 。S[ 姑 的 
几 里 德 距 离 或 曼 哈 











感 兴趣 的 读者 可 以 阅 


9 
i 国 / 


径 是 投影 到 X 的 元 组 
离 汪 。5S[ 芭 的 直径 越 小 ， 其 元 组 






































裔 。 





聚 类 Cx 是 定义 在 属 
， 元 组 满足 稠密 度 阐 值 和 频繁 度 闵 值 。 频 繁 度 闵 值 限定 聚 类 中 元 组 的 最 少 个 数 。 
， 可 以 修改 ， 月 








季 谍 


个 简 身 











性 集 X 上 的 元 组 的 


聚 类 方 





的 形 如 Cx 二 Cy 的 基于 距离 的 














保 age 的 聚 类 Cx 和 income 的 























E 德 距离 和 曼 哈 坦 距离 分 别 是 
EN )* 和 Manhattan_d (11,1,)= > | x 
i=1 


— xi|。 


聚 类 Cy 之 间 的 草 涵 是 强 的 。 这 意味 当 age 聚 类 的 元 组 投影 到 属性 income 上 时 ， 它 们 对 应 的 值 落 在 
income 聚 类 Cy 之 内 ， 或 接近 它 。 聚 类 Cx 投 影 到 属性 集 了 上 记 作 Cx[ 玖 。 这 样 ，Cx[ 丸 和 Cy[ 了 可 之 间 的 
距离 必须 很 小 。 该 距离 度量 Cx 和 Cy 之 间 的 关联 程度 。 Cx[ 丸 和 Cy[ 如 之 间 的 距离 越 小 ，Cx 和 Cy 之 间 
的 关联 程度 越 强 。 关 联 程度 度量 可 以 使 用 标准 统计 度量 定义 ， 如 平均 内 聚 类 距离 ， 质 心 曼 哈 坦 距 离 。 
其 中 ， 聚 类 的 质心 代表 聚 类 的 “平均 ”元 组 。 

一 般 地 ， 可 以 组 合 聚 类 ， 找 出 如 下 形式 的 基于 距离 的 关联 规则 

Ca Cel CO, Cr Cy 

其 中 ， 总 和 也 是 两 两 不 相交 的 属性 集 ， 并 满足 以 下 三 个 条 件 ，(1) 规则 前 件 的 每 个 到 类 与 后 件 的 每 
个 聚 类 是 强 关 联 的 ; (2) 前 件 中 的 聚 类 一 起 出 现 ; (3) 后 件 中 的 聚 类 一 起 出 现 。 关 联 程度 取代 了 非 
基于 距离 的 关联 规则 框架 下 的 置信 和 度 ， 而 稠密 度 阐 值 取代 了 支持 度 。 


































































































































































































6.5 ”由 关联 挖掘 到 相关 分 析 


“挖掘 了 关联 规则 之 后 ， 数 据 挖 握 系 统 如 何 指出 哪些 规则 是 用 户 感 兴趣 的 ? ”大 部 分 关联 规则 
挖掘 算法 使 用 支持 度 - 置 信 度 框架 。 尽管 使 用 最 小 支持 度 和 置信 和 度 闵 值 排除 了 一 些 无 兴趣 的 规则 的 探 
查 ， 仍 然 会 产生 一 些 对 用 户 来 说 不 感 兴趣 的 规则 。 本 节 ， 我 们 首先 看 看 即便 是 强 关 联 规则 为 何 也 可 
能 是 无 兴趣 的 并 可 能 误导 ; 然后 ， 讨 论 基 于 统计 独立 性 和 相关 分 析 的 其 它 度量 。 











































































































6.5.1 强 关 联 规则 不 一 定 是 有 趣 的 :一 个 例子 














“在 数据 挖掘 中 ， 所 有 的 强 关联 规则 《〈 即 ， 满 足 最 小 支持 度 和 最 小 置信 度 阔 值 ) 都 有 兴趣 ， 值 
得 向 用 户 提 供 吗 ? ”并 不 一 定 。 规 则 是 否 有 兴趣 可 能 用 主观 或 客观 的 标准 来 衡量 。 最 终 ， 只 有 用 户 
能 够 确定 规则 是 否 是 有 趣 的 ， 并 且 这 种 判断 是 主观 的 ， 因 不 同 用 户 而 异 。 然 而 ， 根 据 数据 “ 文 持 ” 
的 统计 ， 客 观 兴 《 趣 度 度量 可 以 用 于 清除 无 兴趣 的 规则 ， 而 不 向 用 户 提供 


“我 们 如 何 识别 哪些 强 关 联 规则 是 真正 有 兴趣 的 ? ”让 我 们 考查 下 面 的 例子 。 


例 6.6 假定 我 们 对 分 析 AllElectronics 的 事务 感 兴趣 ， 涉 及 计算 机 游戏 和 录像 。 设 事件 game 
表示 包含 计算 机 游戏 的 事务 ， 而 video 表示 包含 录像 的 事务 。 在 所 分 析 的 10,000 个 事务 中 ， 数 据 显 
示 6000 个 顾客 事务 包含 计算 机 游戏 , 7500 个 事务 包含 录像, 而 4000 个 事务 包含 计算 机 游戏 和 录像 。 
假定 发 现 关 联 规则 的 数据 挖掘 程序 在 该 数据 上 运行 ， 使 用 最 小 支持 度 30%， 最 小 置信 和 度 60% 。 将 发 
现下 面 的 关联 规则 



































































































































































































































buys(X,"computer games" ) 一 buys(X,"videos") 
[support = 40%,confidence = 66%] (6.21) 


规则 (6.2D 是 强 关联 规则 ， 因 而 向 用 户 报告 ， 因 为 其 支持 度 为 二 人 40%， 置信 度 为 ao- 66%， 


A ee Re 
比 66% 还 大 。 事 实 上 ， 计算机 游戏 和 录像 是 负 相 关 的 ， 买 一 种 实际 上 减少 了 买 男 一 种 的 可 能 性 。 不 
完全 理解 这 种 现象 ， 可 能 根据 导出 的 规则 作出 不 明智 的 决定 。 
上 面 的 例子 也 表明 规则 A 寺 B 的 置信 和 度 有 一 定 的 欺骗 性 ， 它 
它 并 不 度量 A 和 B 之 间 蕴 涵 的 实际 强度 。 因 此 ， 寻 求 支 持 度 - 置 
据 联 系 可 能 是 有 用 的 。 





















































只 是 给 定 A, B 的 条 件 概 率 的 估计 。 
信 度 框架 的 替代 ， 对 挖掘 有 趣 的 数 




























































































6.5.2 ”由 关联 分 析 到 相关 分 析 





























使 用 文 持 度 -置信 度 框架 的 关联 规则 挖掘 对 于 许多 应 用 是 有 用 的 。 然 而 ， 支 持 度 -置信 度 框架 可 























能 误导 ， 当 4 的 出 现 








事实 上 并 不 蕴涵 B 的 出 现时 ,识别 出 A = B 是 有 趣 的 。 本 小 节 ， 我 们 考虑 一 种 
蔡 代 框架 ， 根 据 相 关 性 挖掘 数据 项 之 间 有 趣 的 联系 。 























项 集 4 的 出 现 独立 于 项 集 B 的 出 现 ， 如 果 P(A UB) = P(4)P(B); 否则 ， 项 集 4 和 B 是 依赖 的 和 





























相关 的 。 这 个 定义 容易 推广 到 多 于 两 个 项 集 。A 和 B 的 出 现 之 间 的 相关 性 通过 计算 下 式 度 量 




















P(AUB) 
P(A)P(B) 
(6.22) 


如 果 (6.22) 式 的 值 小 于 1， 则 4 的 出 现 和 B 的 出 现 是 负 相 关 的 。 如 果 结 果 值 大 于 1， 则 A 和 B 是 正 相 
关 的 ， 意 味 每 一 个 的 出 现 都 蕴涵 男 一 个 的 出 现 。 如 果 绪 果 值 等 于 1， 则 A 和 B 是 独立 的 ， 它 们 之 间 















































没有 相关 性 。 
让 我 们 回头 看 例 6.6 计算 机 游戏 和 录像 。 





























例 6.7 ee 我 们 需要 和 








多 





两 个 项 集 4 和 B 怎样 





























才 是 相关 的 。 设 game 表示 例 6.6 中 不 包含 计算 机 游戏 的 事务 ， wideo 表示 不 包含 录像 的 事务 。 事 务 











可 以 汇总 在 相依 表 中 。 例 6.6 ee 6.4 所 示 。 由 该 表 可 以 看 上 
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上 ， 购 买 计算 机 游戏 的 





概率 P({ game}) = 0.60， 购 买 录像 的 概率 P({video}) = 0.75， 而 购买 二 者 的 概率 P({ game, video}) = 


0.40。 根据 (6.22) 式 ，P({ game, video})/ (P({game}) x P({video})) =0.40/ (0.75x0.60) = 0.89。 由 于 该 值 






































明显 比 1 小 ，{game} 和 {video} 之 间 存 在 负 相 关 。 分 子 是 顾客 购买 二 者 的 可 能 性 ， 而 分 母 是 如 果 两 个 














购买 是 完全 独立 的 可 能 性 。 这 种 负 相关 不 能 被 文 持 度 -置信 度 框 架 识 别 。 口 





























表 6.4 “汇总 关于 购买 计算 机 游戏 和 录像 事务 的 2 x 2 相依 表 








game game Zrow 
Video 4,000 3,500 7,500 
Bde 2, 000 500 2, 500 
Bol 6, 000 4, 000 10, 000 














这 激发 了 识别 相关 性 规则 或 相关 规则 的 挖掘 。 相 关 规 则 形 如 {，zs ...， 











eg 二 的 出 现 是 相关 的 。 给 定 由 (6. 22) 式 确定 的 相关 值 ，x 统计 可 以 确 






































上 的 相关 。X 统计 也 可 以 确定 负 费 涵 。 














相关 性 的 一 个 优点 是 它 是 向 上 封闭 的 。 这 意味 , 如 果 项 集 ?是 相关 的 ( 











7 Ee 其 中 ， 项 {zy 


定 相 关 是 否 是 统计 意义 

















上 ，S 中 的 项 是 相关 的 )， 


则 5 的 超 集 也 是 相关 的 。 换 名 话说， 添加 项 到 相关 集合 中 ， 不 影响 已 存在 的 相关 性 。x 统计 在 每 个 




















有 意义 的 层 也 是 向 上 封闭 的 。 

















在 搜索 相关 集 ， 形 成 相关 规则 时 ， 可 以 使 用 相关 性 和 X 的 向 上 封闭 性 。 由 空 集 开始 ， 考 察 项 集 





































































































将 这 里 介绍 的 过 程 用 于 超大 规模 数据 库 是 一 个 尚 待 解决 的 问题 。 另 一 个 限 和 
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空间 (或 项 集 的 格 )， 一 次 添加 一 个 项 ， 寻找 最 小 相关 项 集 一 一 相关 的 项 集 ， 其 子 集 都 不 相关 。 这 
些 项 集 形成 格 的 边界 。 由 于 封闭 性 ， 边 界 以 下 的 项 集 都 不 是 相关 的 。 由 于 最 小 相关 项 集 的 所 有 超 集 
都 是 相关 的 ， 我 们 可 以 停止 向 上 搜索 。 在 项 集 空间 进行 这 种 一 系列 “行走 ”的 算法 称 作 随机 行走 算 
法 。 这 种 算法 可 以 与 支持 度 测 试 结合 ， 以 进行 进一步 的 剪 枝 。 随 机 行走 算法 容易 使 用 数据 方 实现 。 

1 是 ， 当 相依 表 数 据 稀 疏 






















































































兴趣 度 的 提议 在 文献 注释 中 给 出 。 





6.6 ”基于 限制 的 关联 挖掘 








x 统计 不 够 精确 ， 并 且 对 于 大 于 2 x 2 相依 表 可 能 误导 。 替 代 支持 度 -置信 度 框 架 评估 关联 规则 


对 于 给 定 的 任务 相关 的 数据 集 ， 数 据 挖 据 过 程 可 能 发 现 数 以 干 计 的 规则 ， 其 中 许多 用 户 并 不 感 
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四 ”知识 类 型 限制 : 指定 要 挖掘 的 知识 类 型 ， 如 关联 规则 。 
里。 数据 限制 : 指定 任务 相关 的 数据 集 。 
@@ 。” 维 / 层 限制 : 指定 所 用 的 维 或 概念 分 层 结构 的 层 。 

















兴趣 。 在 基于 限制 的 挖掘 中 ， 挖 掘 在 用 户 提供 的 各 种 限制 的 指导 下 进行 。 这 些 限制 包括 














@ ”兴趣 度 限制 :指定 规则 兴趣 度 闹 值 或 统计 度量 ， 如 六 持 度 和 置信 和 度 
”规则 限制 : 指定 要 挖掘 的 规则 形式 。 这 种 限制 可 以 用 元 规则 《规则 模板 ) 表示 ， 如 可 以 出 现在 
规则 前 件 或 后 件 中 谓词 的 最 大 或 最 小 个 数 ， 或 属性 、 属 性 值 和 /或 聚集 之 间 的 联系 。 
以 上 限制 可 以 用 高 级 数据 挖掘 查询 语言 说 明 ， 如 用 第 4 章 介绍 的 语言 。 
上 面 的 前 4 种 限制 已 在 本 书 或 本 章 的 前 面 讨论 。 本 节 ， 我 们 讨 ; 仑 使 用 规则 限制 对 挖掘 任务 聚焦 。 
这 种 基于 限制 的 挖掘 允许 用 户 根据 他 们 关注 的 目标 ， 说 明 要 挖掘 的 规则 ， 因 此 使 得 数据 挖掘 过 程 更 
有 功效 。 此 外 ， 可 以 使 用 复杂 的 挖掘 查询 优化 程序 ， 以 便利 用 用 户 指定 的 限制 ， 从 而 使 得 挖掘 过 程 
更 有 效率 。 基 于 限制 的 挖掘 促进 交互 式 探查 挖 所 与 分 析 。 在 6. 6. 1 小 节 ， 你 将 学 习 元 规则 制导 的 控 
据 ， 那 里 用 规则 模板 的 形式 说 明了 语法 规则 限制 。6. 6. 2 小 节 讨 论 进一步 的 规则 限制 使 用 ， 指 定 集 
合 / 子 集 联 系 、 变 量 的 常量 初始 化 和 聚集 函数 。 



































































































































































































































































































































6.6.1 ”关联 规则 的 元 规则 制导 挖掘 





“元 规则 有 什么 作用 ? ”元 规则 使 得 用 户 可 以 说 明 他 们 感 兴趣 的 规则 的 语法 形式 。 规 则 的 形式 
可 以 作为 限制 ， 帮 助 提高 挖掘 过程 的 性 能 。 元 规则 可 以 根据 分 析 者 的 经 验 、 期 望 或 对 数据 的 直觉 ， 
或 者 根据 数据 库 模式 自动 产生 。 

例 6.8 假定 作为 AllElectronics 的 市 场 分 析 员 ， 你 已 经 访问 了 描述 顾客 的 数据 (如 ， 顾 客 的 
年 龄 、 地 址 和 信誉 度 等 ) ， 以 及 顾客 事务 的 列表 。 你 对 找 出 顾客 的 特点 和 他 购买 的 商品 之 间 的 关联 
关系 感 兴趣 。 然 而 ， 不 是 要 找 出 反映 这 种 联系 的 所 有 关联 规则 ， 你 特别 对 什么 样 的 一 对 顾客 特点 促 
进 教育 软件 的 销售 感 兴趣 。 可 以 使 用 一 个 元 规则 来 说 明 你 感 兴趣 的 规则 形式 。 这 种 元 规则 的 一 个 例 


子 是 























































































































PED A BRED SS buys(h ”education software’) 
(6. 23) 
其 中 ， 忆 和 户 是 谓词 变量 ， a hh ae 代表 顾客 ; 了 和 

























































































分 别 取 赋 给 已 和 户 的 属性 值 。 典 型 地 ， 用 户 要 说 明 一 个 例 示 乙 和 户 需 考虑 的 属性 列表 ;， 否则， 将 
使 用 省 缺 的 属性 集 。 
一 般 地 ， 元 规则 形成 一 个 关于 用 户 和 希望 探查 或 证 实 的 、 他 感 兴趣 联系 的 假定 。 然 后 ， 挖 掘 系统 














可 以 寻找 与 给 定 元 规则 匹配 的 规则 。 例 如 ， 规 则 (6. 24) 匹配 或 遵守 元 规则 (6. 23) 。 
age(X, ”30...39”) ) A income(l% ”41...60K”) 一 pbuys(% ”education software’) 
(6. 24) 














“元 规则 如 何 用 于 指导 挖掘 过 程 ? ”让 我 们 进一步 考察 这 个 问题 。 假 定 我 们 希望 挖掘 维 问 关联 
规则， 如 上 例 所 示 。 元 规则 是 形 如 








Ph 人 和 人 BRA... 和 人 A AYU 人 WA... 人 UM 
(6. 31) 


的 规则 模板 。 其 中 ，P; (7 = 1，2 ,...， D 和 4; (j= 1，2，..., 了 ) 是 例 示 谓 词 或 谓词 变量 。 设 
元 规则 中 谓词 的 个 数 为 = 7 + r。 为 找 出 满足 该 模板 的 维 间 关 联 规则 

@ ”我们 需要 找 出 所 有 的 频繁 六 谓词 集 / 

四 ”我 们 还 必须 有 中 的 7- 谓 词 子 集 的 支持 度 或 计数 ， 以 计算 由 乙 导 出 的 规则 的 置信 度 。 

这 是 挖掘 多 维 关联 规则 的 典型 情况 ， 我 们 在 6. 4 节 已 介绍 。 正 如 在 那里 看 到 的 ， 数 据 方 很 适合 
多 维 关联 规则 的 挖掘 ， 因 为 它们 具有 存放 聚集 维 值 的 能 力 。 由 于 数据 仓库 和 0LAP 技术 的 流行 ， 适 
合 给 定 挖掘 任务 的 、 完 全 物化 的 x 了 数 据 方 可 能 已 经 存在 。 这 里 ， 是 被 考虑 的 对 谓词 变量 例 示 的 
属性 数 ， 加 上 在 给 定 元 规则 中 已 经 例 示 的 谓词 数 ， 并 且 2 > p。 通 常 ， 这 种 nD 数据 方 用 方 体 的 格 
表示 ， 类 似 于 图 6. 17 中 的 那 种 。 在 这 种 情况 下 ， 我 们 只 需要 扫描 2 也 方 体 ， 将 每 个 单元 中 的 计数 
与 最 小 文 持 度 计数 比较 ， 以 找 出 j。 由 于 7 志方 体 已 经 计算 ， 并 包含 的 1 谓词 子 集 的 计数 ， 然 
后 调用 规则 产生 过 程 ， 返 回 与 元 规则 匹配 的 强 规则 。 我 们 称 这 种 方法 为 缩减 的 n-D 方 体 搜索 ， 因 为 
它 只 考察 D 了 和 7 志方 体 ， 而 不 是 搜索 整个 2 数据 方 。 

如 果 用 于 元 规则 制导 的 挖掘 任务 的 2 数据 方 不 存在 , 我 们 必须 构造 和 搜索 它 。 只 需要 计算 p-D 
和 7 世 方 体 ， 而 不 是 整个 数据 方 。 数 据 方 的 构造 方法 已 在 第 2 章 讨 论 。 

























































































































































































































































































6.6.2 ”用 附加 的 规则 限制 制导 的 挖掘 














j 户 可 以 说 明 集 合 / 子 集 联 系 , 变量 的 常量 初始 化 和 聚集 函数 。 这 些 可 以 与 元 规则 制导 的 挖掘 一 
起 使 用 ， 或 作为 它 的 替代 。 本 节 ， 我 们 考察 规则 限制 ， 看 看 怎样 使 用 它们 ， 使 得 挖掘 过 程 更 有 效 。 
让 我 们 研究 一 个 例子 ， 其 中 规则 限制 用 于 挖掘 混合 维 关联 规则 。 

例 6.9 假定 AllElectronics 有 一 个 销售 多 维 数据 库 ， 包 含 以 下 相互 关联 的 关系 : 
@ sales(customer name, item name, transaction id) 
@ Jives(customer name, region, city) 
@ 1tem(item name, category, price) 
国 transaction(transaction id, day, month, year) 
其 中 ，Jjives，jtem 和 transaction 是 三 个 维 表 ， 通 过 三 个 关键 字 customer name，jitem name 和 
transaction_id 分 别 链接 到 事实 表 sa7es。 

我 们 的 关联 挖掘 查询 是 “ 找 出 这 样 的 销售 ， 对 于 Vancouver 的 1999 年 的 顾客 ,什么 样 的 便宜 商 
品 〈 价 格 和 低 于 $100) 能 够 促进 同类 贵 商 品 〈 最 低 价 为 $500) 的 销售 ? ”该 查询 可 以 用 DMQL 数据 
挖掘 查询 语言 表达 如 下 。 为 方便 讨论 ， 碍 询 的 每 一 行 已 经 编号 。 

(1) mine associations as 

(2) lives(C, , “vancouver”) 和 sales+(C,? {I}, {S})=> sales+(C,? {J}, {T}) 

(3) from sales 

(4) where S.year = 1999 and T.year = 1999 and I.category = J.category 

(5) group by C, I. category 

(6) having sum(I. price)《 100 and min(J. price)>500 

(7) with support threhold = 1% 

(8) with confidence threhold = 50% 

在 讨论 规则 限制 之 前 ， 让 我 们 仔细 看 看 上 面 的 查询 。 行 1 是 知 i 说 明 要 发 现 关 联 横 
式 。 行 2 说 明了 元 规则 。 这 是 下 面 混合 维 关联 规则 (多 维 关联 规则 ， 其 中 重复 谓词 是 sa7es) 的 元 
规则 的 缩写 形式 : 


lives(C, _,"Vacouver") 
人 入 sales(C,?1',S)AN... 人 和 sales(C, ?TS )AT={T,.., TL} 和 NAS ={S,,...,S,) 
Ssales(C,?T,T)AN... 和 sales(C,? TT NT ={7, 7 } 人 TT ={7,...,T,) 
这 意味 一 个 或 多 个 sales 记录 以 “sales(G ?71,5S) 入 ... 和 sales(0G ?1,S) ” 2 
的 前 件 〈 左 部 ) ， 间 号 “? ”表示 只 有 项 的 名 字 厂 ,..….， 克 需要 打印 。“I={ ,...，7}” 意 味 
出 现在 前 件 的 所 有 的 7 取 集 合 形 式 ， 由 行 4 的 类 SQL 的 where- 子 句 得 到 。 类 似 的 记号 用 寺 后 件 ( 右 
端 ) 。 
该 元 规则 可 能 允许 类 似 于 下 面 的 关联 规则 产生 
lives(C,_,"Vancouver") 入 sales(C,"Census _CD",_) 人 
sales(C," MS /Office",_) SS sales(C,"MS/SOLServer", ), [1.5%,68%] 
该 规则 意味 ， 如 果 顾 客 住 在 Vancouver， 买 了 “Census CD” 和 “MS/A0ffice”， 他 多 半 会 买 
“MS/ASQLServer”【〔 概 率 68%) ， 并 且 所 有 顾客 的 1. 5% 买 这 三 样 。 
数据 限制 在 元 规则 的 “77res(，， ”Vancouver”) ”部 分 指定 ( 即 , 住 在 Vancouver 的 所 有 顾客 ) ， 
并 在 行 3 指出 只 有 事实 表 sales 需要 显示 引用 。 在 多 维 数据 库 中 ， 变 量 的 引用 被 简化 。 例 如 ， 
“S. year=1999” 等 价 于 SQL 语句 “from sales 9 transaction R Where 9 transaction 1D = 
尼 transaction 1D and Ryear = 1999”。 所 有 三 个 维 (77res，7tem 和 transaction) 部 使 用 。 层 
限制 如 下 : 对 于 7ives， 我 们 只 考虑 customer name， 因 为 只 有 city =“Vancouver” 在 选择 中 使 用 ; 
对 于 item， 我 们 考虑 item_name 和 category， 因 为 它们 在 查询 中 使 用 ; 对 于 transaction， 我 们 只 
考虑 transaction 1D， 因 为 dqay 和 month 未 被 引用 ， 而 year 只 在 选择 中 使 用 。 
规则 限制 包含 在 where ( 行 4) 和 having ( 行 6) 子 句 的 大 部 分 , 如 “5 year= 1999”、“ 了 year 
= 1999”、“ Jcategory = ,J.category” 、“ sum(l.price) 《100 ”和 “min(J.price) > 500”。 
最 后 ， 行 7 和 8 说 明了 两 个 兴趣 度 限 制 〈 即 ， 阔 值 ) : 1% 的 最 小 支持 度 和 50% 的 最 小 置信 度 。 口 




































































































































































































































































(6. 26) 














































































































































































































然而 ， 这 可 能 使 得 控 和 
广泛 讨论 。 
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类 限制 


Ap 
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知识 类 型 和 数据 限制 在 挖掘 前 使 用 。 其 
量 过 程 非 币 低 效 ， 代 价 
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什么 类 


本 章 


46 


地 ， 


对 于 频繁 项 


4) 可 变 的 ， 




















现在 ， 
型 的 规则 限 种 





什么 类 型 的 规则 限制 可 以 “ 
集 挖 气 ， 规 则 
(5) 不 可 变 的 。 对 于 每 一 类 ， 
在 挖 据 过 程 
类 限制 是 反 单调 性 。 考 虑 例 6. 9 的 规则 限 秆 
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的 方法 〈 逐 
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果 一 个 项 外 
人 人， 则 称 
帮助 提高 整 





集 不 满 
它 是 反 单 调 的 。 根 据 反 单 调 规 则 限 第 
的 性 能 ， 
是 说 频繁 项 


次 个 挖 据 
注意 ，Apriori 性 


该 规 贝 


人 上 











过 程 
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定 的 项 集 不 满足 最 小 支持 度 ， 则 它 的 任何 i 
以 减少 考察 的 候选 项 集 的 个 数 ， 从 而 压缩 关联 规则 的 搜索 空 | 
子 包括 加 in (J. Price) 
因为 向 这 种 项 集中 添加 更 多 的 项 不 可 能 满足 限制 。 
的 项 集 ， 通 过 添加 一 些 〈 便 宜 的 ) 项 得 至 


代 ， 
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列 台 
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反 单 调 限 制 的 其 它 例 
项 集 都 可 以 于 弃 ， 
的 限制 不 是 反 单 1 





足 该 限制 。 



































给 出 刻画 反 





四 |] 








单 ; 
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项 到 了 将 增加 价 























， 但 没有 二、g ) 和 刘 
第 二 类 限制 是 
里 方法 将 很 不 相同 。 如 果 项 集 了 满足 该 限制 ， 即 ， 集 合 
格 ， 并 且 总 是 满足 该 限制 。 














有 调 性 。 
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为 向 该 项 集中 进 一 


周 的。 对 于 一 个 不 满足 该 限制 
因此 ， 将 这 种 限制 推进 到 挖掘 过 程 之 中 ， 将 不 保证 挖掘 任务 的 完全 性 。 表 6. 5 的 多 
列表 。 为 简化 我 们 的 讨论 , 只 给 出 了 存在 性 操作 符 ( 例 
含 ) 操作 符 〈 例 如 ，<、 


性 特性 的 基于 SQL 原 语 限制 





类 型 的 限制 可 
昂贵 。 维 / 层 
让 我 们 把 注意 力 放 在 规则 限制 上 。 
上 可 以 在 挖 据 过 程 中 使 用 ， 以 缩小 规则 搜索 空 













































































以 在 挖掘 后 使 用 ， 


z 间 ? ”你 可 























台 已 
可 能 会 


以 便 过 滤 发 现 的 规则 。 
限制 在 6. 3. 2 小 节 已 讨论 ， 而 兴趣 度 限制 














问 。“ 更 特 














进 ” 到 挖掘 过 程 ， 并 且 仍然 保证 
限制 可 以 分 为 如 下 五 类 : (1) 反 单 调 的 ， 
我 们 将 使 用 一 个 例子 
























































步 添 加 项 将 会 使 它 更 贵 ， 
它 的 任何 超 集 也 不 可 能 满足 
进行 剪 枝 可 以 
E 务 的 完全 性 。 
也 必然 是 频繁 的 ， 








j 限 制 ， 
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而 保证 数据 挖掘 人 
集 的 任何 非 空子 身 
馈 集 也 不 可 外 









































间 。 
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sum(Z price) < 100”。 


因此 不 可 外 
该 规则 限制 。 如 果 一 
于 类 -Apriori 算法 的 每 一 次 迭代 ， 











(2) 单调 的 ， 











民 ) ， 对 于 每 次 迭代 k， 探 查 大 项 集 。 其 价格 和 不 小 于 100 的 人 


假定 我 们 使 
F 何 





满足 限制 。 
个 规则 具有 这 








它 也 是 反 身 





和 调 的 。 如 








EB 满足 。 这 个 性 质 用 于 Apriori 
































直人 稚 呈 


市 等 号 的 比较 (或 包 
如 果 例 6.9 中 的 规 由 








j 限 第 
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“sum(7 price,) 


中 的 

































































因此 , 在 项 集 7 上 进一步 检查 该 








EY 





回答 挖掘 查询 的 完全 性 ? ” 





(3) 简洁 的 ， 


展示 它 的 特性 ， 并 解释 如 何 将 这 




















类 似 于 
项 集 都 可 以 
换 一 句 话 说 ， 
































图 .和 
末 给 


算法 的 每 次 迭 











500” 和 ”count (7) < 70* 等 。 任 何 违 反 这 些 限制 
诸如 ”avg (I price) < 100” 


旦 
bay 


到 的 超 集 可 能 





A 一 
2 E PN 





> 100”， 则 基于 限制 的 处 


和 价 和 不 少 于 100， 进 一 
| 是 多 余 的 。 换 言 之 ， 


限 和 
















































































步 添加 更 多 的 






































如 果 一 个 项 集 满 足 这 个 规则 限制 ， 它 的 所 有 超 集 也 满足 。 如 果 一 个 规则 具有 这 一 性 质 ， 则 称 它 是 单 
调 的 。 类 似 的 规则 单调 限制 包括 “min(Z price) < 10”，“count (7) > 10” 等 。 表 6.5 的 第 三 列 
给 出 刻画 单调 性 特性 的 基于 SQL 原 语 限制 列表 。 
表 6.5 常用 的 基于 SQL 的 限制 的 特性 

限制 反 单 调 的 单调 的 简洁 的 

7E9 否 是 是 

SV 否 是 是 

SET 是 否 是 

min(S) < v 否 是 是 

min(S) > v 是 奋 是 

Max(S) 气节 是 否 是 

Max(S) > v 否 是 是 

count (S$) 气节 是 否 弱 

COUDL(S) > v 否 是 弱 

sum($) <v (vae9a>0) 是 否 合 

sum(S) >v (YaeS,a2>0) 和 否 是 否 

range(Ss) <v 是 否 合 

range(Ss) >v 否 是 合 

avg(S)0 v, be ss 可 变 的 可 变 的 否 

SUDDOFL(S) > 去 是 奋 个 

suUpport (S) < E 和 否 是 个 

第 三 类 是 简洁 性 限制 。 对 于 这 类 限制 ， 我 们 可 以 列 出 、 并 且 仅 仅 列 出 所 有 确保 满足 该 限制 的 集 
。 即 ， 如 果 一 个 规则 限制 是 简洁 的 ， 我 们 可 以 直接 精确 地 产生 满足 它 的 集合 ， 甚 至 在 支持 计数 开 





台 之 前 。 
中 的 限制 “min(7 price) > 500” 








这 避免 了 产生 -测试 方式 的 过 大 
日 和 和 ;十 


契 加 着 


项 集 。 特 殊 地 ， 这 种 集合 至 少 包含 一 个 项 ， 











销 。 换 言 之 ， 

















这 种 限 秆 


























是 集合 中 价格 不 低 于 $500 的 项 的 子 集 ; 
为 有 一 个 精确 “公式 ”， 产 生 满 足 简洁 
表 6.5 的 第 四 列 给 出 刻画 简洁 

第 四 类 
列 ， 则 对 于 频繁 项 集 挖 掘 过 程 
不 是 反 单 调 的 ， 也 不 是 单调 的 。 然 T 
成 了 反 单 调 的 ， 因 为 如 果 项 集 
到 该 项 集中 不 会 使 它 满足 该 限制 。 
制 就 成 了 单调 的 ， 因 
到 当前 项 集 将 使 得 平均 
些 其 它 可 变 的 限制 ， 





























































































































| 长 : 





如 6 

















3 中 的 元 素 可 以 是 人 


且 E 意 实数 。 
尽管 有 一 些 难 处 到 
对 


















































6.7 总 结 
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应 用 领域 是 购物 篮 分 析 ， 
































度 阔 值 〈 





























(1) 根据 规则 所 处 理 的 值 





的 类 型 ， 














类 ) 对 象 之 间 的 联系 。 量 化 关联 规 由 











能 涉及 分 类 属性 
根据 规则 中 数据 涉及 
维 ， 
联系 〈 即 ， 同 一 个 属性 或 维 
之 间 的 关联 ) 。 























性 特性 的 基于 SQL 原 i 
限制 是 可 变 的 限制 。 有 些 限 制 不 
， 限 制 可 能 成 为 
1， 如 果 事 务 ! 
7 违反 了 该 限制 
类 似 地 ， 如 果 
为 如 果 项 集 7 违反 了 该 限于 





量 数据 之 间 的 关联 关系 的 发 现在 选择 购物 、 
通过 搜索 经 常 
惯 。 关 联 规则 挖掘 首先 找 出 频繁 项 集 〈 项 的 
关 元 组 的 百分比 ) ， 然 后 ， 由 它们 产生 形 如 4 之 8 的 强 关 联 规则 。 
预定 义 的 、 在 满足 4 的 条 件 下 满足 8 的 概 
民 据 不 同 的 标准 ， 关 联 规 则 可 以 分 成 若干 
关联 规则 可 以 分 为 布尔 的 和 量化 的 。 布 尔 关 联 规则 表现 离散 (分 
关联 规则 ， 涉 及 动态 离散 化 的 数值 属性 。 它 也 可 


的 维 ， 关 联 规 贝 





而 5 可 能 为 空 
吉 限 制 的 所 有 集合 ， 
河 限 人 
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列表 。 
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YIZ 

















〈 即 ， 
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和 E 调 的 。 
单价 




















它 是 这 种 形式 : 
虹 合 中 价格 不 超过 $500 的 项 的 子 集 。 因 
在 挖 抉 过 程 中 不 必 达 代 地 检验 规则 限制 。 


的 递增 序 添 加 到 项 集中 ， 贝 


上 是 计数 前 可 剪 枝 的 。 例 如 ， 例 6. 9 
的 。 这 是 因为 我 们 能 够 准确 无 误 地 产生 满足 该 限 秆 
单价 不 低 于 $500。 


上 的 所 有 
中 9z 人 

















S71 92 其 














属于 以 上 三 类 。 然 而 ， 如 果 项 集中 的 项 以 特定 的 次 序 排 


例如 ， 限 制 “avg(7. price)” 既 
1 该 限制 就 
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均 和 











hl 





-者 








上 |《〈 即 ， 


外 价 














平均 











决策 分 析 和 商务 管理 方面 是 有 用 的 。 


大 于 $100) ， 更 贵 的 商 
务 中 的 项 以 单价 的 递减 序 添加 到 项 集中 ， 则 该 限 
价 不 超过 $100〉，， 添 加 更 便宜 的 商品 
E 价 不 大 于 $100。 除 表 6. 5 给 出 的 “avg(9 < 
variance (S$) > 四 和 “standard variation($) > v” 等 。 
注意 ,以 上 讨论 并 不 意味 每 种 限制 都 是 可 变 的 。 例如， 

) 因此 ， 还 有 第 五 类 限 秆 


“sum(3) 6 wv” 不 是 可 变 的 ， 
|， 称 作 不 可 变 的 限制 。 一 个 好 消息 
的 限制 是 不 可 变 的 ， 大 部 分 使 用 SQL 内 部 聚集 的 简单 SQL 表达 式 都 属于 前 
寺 于 它们 可 以 使 用 有 效 的 限制 挖掘 方法 。 


品 进 一 步 添 加 











Vv 和 “avg(9 > v” 外 ， 还 

















中 ， 


长 ， 





0 
息 是 ; 


四 类 之 

















一 个 流行 的 

















一 块 购买 的 并 


华 必 


pe 














类 型 ， 








| 是 多 维 











商品 的 集合 





如 4 和 及 


率 ) 。 


如 : 











(或 序列 ) , 
满足 最 小 支持 度 


究 顾 客 的 购买 习 
阔 值 ， 或 任务 相 
这 些 规则 也 满足 最 小 置信 
























































j 可 以 分 成 单 维 和 多 维 的 。 单 维 关联 规则 涉及 单个 谓词 或 








而 多 维 





与 频繁 闭 项 集 挖 据 。 相 关 分 析 指 





的 任何 真 超 集 都 不 是 频繁 的 。 
使 得 包含 























功 

















项 








涉及 散 列 和 事务 / 








分 


减少 到 一 或 两 次 。 








如 buys; 而 多 维 关联 规则 涉及 多 个 《不同 的 ) 谓词 或 维 。 单 维 
内 的 关联 ) ; 


关联 规则 





根据 规则 涉及 的 抽象 层 ， 关 联 规则 可 以 分 为 单 层 和 多 层 的 。 在 单 
挖 气 不 考虑 不 同 的 抽象 层 ， 而 多 层 关 联 规则 考虑 多 个 抽象 层 。 
根据 对 关联 挖掘 的 不 同 扩充 ,关联 挖掘 可 以 扩充 为 相关 分 析 和 最 大 频繁 模式 (“ 有 最 大 模式 ”) 











关联 规 由 
展示 的 是 维 间 联 系 


I 展示 的 是 维 内 
( 即 ， 属 性 / 维 





























层 关 联 规则 中 ， 项 或 谓词 的 


























也 包含 c 











出 相关 项 的 存在 与 
频繁 闭 项 集 是 指 : 
c 的 子 模式 的 每 个 事务 
Apriori 算法 是 一 种 有 效 的 关联 规则 
页 集 的 所 有 非 空子 集 都 必须 是 频繁 的 。 在 第 
集 候选 ， 并 扫描 数据 库 一 次 ， 找 出 完 


合 








。 最 大 模式 是 一 个 频繁 模式 p， 使 得 p 





项 集 是 财 的 ， 如 果 不 存在 c 的 真 超 集 c， 


挖掘 算法 ， 它 逐 级 探查 ， 进 行 挖掘 。Apriori 性 质 : 
k 次 欠 




















压缩 的 变形 可 以 用 来 使 得 过 程 更 有 
上 挖掘， 然后 合并 结果 ) 和 数据 选 样 〈 在 数据 子 集 上 挖掘) 

















焦 于 频繁 模式 〈 段 ) 增长 ， 


频繁 模式 增长 〈FP- 增 长 ) 是 一 种 不 产 
据 结构 (FP- 树 ) ， 压 缩 原来 的 事务 数据 库 。 








生 候选 的 控 


























时 频 繁 项 集 方法 。 它 构造 
不 是 使 用 类 Apri 





频繁 





尺 ， 它 根据 频繁 大 项 集 ， 形 成 频繁 (K+1) 
整 的 频繁 (1+1) -项 集 2 en 
效 。 其 它 变形 涉 


及 划分 数据 (在 每 一 部 
。 这 些 变形 可 以 将 数据 扫描 次 数 


一 个 高 度 压缩 的 数 
ori 方法 的 产生 -测试 策略 ， 它 聚 














避免 了 高 代价 的 候选 产生 ， 获 得 更 好 的 效率 。 




















四 ”多 层 关联 规则 可 以 根据 每 个 抽象 层 上 的 最 小 支持 度 闵 值 如 何 定 义 ， 使 用 多 种 集 略 挖 气 。 当 在 较 


低层 使 有 








递减 的 支持 度 时 , 剪 枢 方 法 包括 层 交 叉 按 单项 过 滤 , 层 交 叉 按 太 项 集 过 滤 。 宛 余 的 〈 后 



























































代 ) 关联 规则 可 以 删除 ， 不 向 用 户 提 供 ， 如 果 根 据 其 对 应 的 祖先 规则 ， 它 们 的 支持 度 和 置信 和 度 


接近 于 期 望 值 的 话 。 
昌 ”挖掘 多 维 关 联 规则 可 以 根据 对 量化 属性 处 理 分 为 若干 类 。 第 一 ， 量 化 属性 可 以 根据 预定 义 的 概 




















念 分 层 静态 离散 化 。 数 据 方 非常 适合 这 种 方法 ， 因 为 数据 方 和 量化 属性 都 可 以 利用 概念 分 层 。 


第 二 ， 可 以 挖掘 量化 关联 规则 ， 其 量化 属性 根据 分 箱 动态 离散 化 ，“ 临 1 关联 规则 可 以 用 
。 第 三 ， 可 以 挖掘 基于 距离 的 关联 规则 ， 其 中 区 间 根 据 聚 类 定 





聚 类 组 合 
























































lt 

















































































































”并 非 所 有 的 强 关 联 规则 都 是 有 趣 的 。 对 于 统计 相关 的 项 ， 二 D> 各 入 关 规则 


”基于 限 秆 
这 种 挖 扣 


战 。 


在 关联 挖掘 中 使 用 ， 指 导 挖 掘 过 程 ， 导 致 更 有 功效 和 更 有 效率 的 挖掘 。 














| 的 挖掘 允许 用 户 聚 焦 ， 按 提供 的 元 规则 《〈 即 ， 模 式 模板 ) 和 其 它 挖 掘 限 制 搜索 规则 。 
加 促进 了 说 明 性 数据 挖掘 查询 语言 和 用 户 界 面 的 使 用 ， 并 对 挖掘 查询 优化 提出 了 巨大 挑 












































规则 限制 可 以 分 五 类 : 反 单调 的 、 单 调 的 、 简 洁 的 、 可 变 的 和 不 可 变 的 。 前 四 类 限制 可 以 


















































”关联 规则 不 应 当 直 接 用 于 没有 进一步 分 析 或 领域 知识 的 预测 。 它 们 不 必 指 示 因 果 关 系 。 然 而 ， 





对 于 


习题 


6.1 Apriori 




















进一步 探查 ， 它 们 是 有 帮助 的 切入 点 。 这 使 得 它们 成 为 理解 数据 的 流行 工具 。 












































法 使 用 子 集 支 持 度 性 质 的 先 验 知识 。 








(a) 证 明 频 繁 项 集 的 所 有 非 空子 集 必须 也 是 频繁 的 。 


(b) 





证 明 项 集 s 

















的 任意 非 空子 集 s 的 文 持 度 至 少 和 s 的 支持 度 一 样 大 。 











(c) 给 定 频繁 项 集 7 和 7 的 子 集 s， 证 明 规 则 ”s” 之 Cs 的 置信 度 不 可 能 大 于 ”s 之 (1-s)” 


的 置信 和 度 。 其 中 ，s’ 是 s 的 子 集 。 


(d) 


繁 的 任何 项 集 至 少 在 7 的 一 个 部 分 中 是 频繁 的 。 
6. 2 ”6.2.2 小节 介 
6. 2. 2 小 节 的 方法 更 有 效 。( 提 示 : 考虑 将 习题 6. 1(b) 和 6. 1(c) 的 性 质 结合 到 你 的 设计 中 ) 




















Apriori 的 一 




















种 变形 将 事务 数据 库 中 的 事务 划分 成 n 个 不 重合 的 部 分 。 证 明 在 7 中 是 频 









































了 由 频繁 项 集 产生 关联 规则 的 方法 。 提 出 一 个 更 有 效 的 方法 。 解释 它 为 什么 比 



































6.3 数据库 有 4 个 事务 。 设 min sup = 60%，min conf = 80%。 





TID date items bought 
T100 10/15/99 {kK, A, D, B} 
T200 10/15/99 {D, A, C, E, B} 
T300 10/19/99  {C, A, B, E} 
T400 10/22/99  {B, A, D} 

(a) 


分 别 使 用 Apriori 和 FP- 增长 算法 找 出 频繁 项 集 。 比 较 两 种 挖 抉 过程 的 有 效 性 。 


























(b) 列 出 所 有 的 强 关联 规则 《〈 带 支持 度 s 和 置信 和 度 c) ， 它 们 与 下 面 的 元 规则 匹配 ， 其 中 ， 了 
是 代表 顾客 的 变量 ，jitem; 是 表示 项 的 变量 (例如 ，”4”、”*B 等 ): 





















































VV xe transaction, buys(% jitem) Abuys(% jitem) SS buys(Y% Iitem) [s, ce] 
6.4 数据库 有 4 个 事务 。 设 win sup = 60%，min conf = 80%。 
cust [ TID items bought (WM brand-item category 形式 ) 
D 
01 T100 {King’s-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread} 
02 T200 {Best-Cheese, Dairyland-Milk， Goldenfarm-Apple, tasty-Pie, 
Wonder-Bread} 
01 T300 {Westcoast-Apple, Dairyland-Milk, Wonder-Bread, Tasty-Pie} 
03 T400 {Wonder-Bread, Sunset-Milk, Dairyland-Cheese} 
(a) ”在 item category 粒 度 ( 例 如 ，jtem; 可 以 是 “MiIk”) ， 对 于 下 面 规则 模板 
V xe transaction, buys(% jitem) Abuys(% Iitem) SS buys(Y, item;) [s, cl] 
对 最 大 的 fh， 列 出 频繁 -项 集 和 包含 最 大 的 的 频繁 kf- 项 集 的 所 有 强 关 联 规则 。 


(b) 








在 brand-item category 粒度 (例如 ， 可 以 是 “Sunset-Mi7k”) ， 对 于 下 面 的 规则 模板 


VY YE customer, buys(% jitem) Abuys(% item) SS buys(% Iitem) 


对 最 大 的 h 列 出 














频繁 K -项 集 。 注意; 不 打印 任何 规则 。 











6.5 假定 一 个 大 型 存储 具有 分 布 在 4 个 站 点 的 事务 数据 库 。 每 个 成 员 数 据 库 中 的 事务 具有 相同 的 
; 其 中 ， 了 是 事务 标识 符 ， 而 i (1 <k < 是 事务 中 购买 的 商品 标识 符 。 
提出 一 个 有 效 的 算法 ， 挖 抉 全 局 关联 规则 (不 考虑 多 层 关联 规则 〉。 
点 。 你 的 算法 不 必 将 所 有 的 数据 移 到 一 个 站 点 ， 并 且 不 造成 过 度 的 网 络 通讯 开销 。 


格式 DD: [1,...， jn 














6.6 假定 大 型 事务 数据 库 


























DB 的 频繁 项 集 已 经 存储 。 讨 论 : 

















如 果 新 的 事务 集 408 ( 渐 增 地 ) 加 进 ， 


在 相同 的 最 小 支持 度 阔 值 下 ， 如 何 有 效 地 挖 据 〈 全 局 ) 关联 规则 ? 
6.7 假定 描述 Big-University 大 学 学 生 的 数据 关系 已 被 泛 化 为 表 6.6 的 泛 化 关系 RR。 








设 概念 分 层 如 下 : 
Status: 
{M Sc, 
MaJor: 
{05, 
age: 
{26... 


























你 可 以 给 出 你 的 算法 的 要 




















{freshman, sophomore, junior, senior} ee undergraduate 


MA, Ph.D} ¢€e graduate 


{physics, chemistry, math} € science 


engineering} e appl science 
{16...20，21-25} € young 
30，over 30} € o7a 


nationality: {Asia, Europe, Latin America}e foreigen 
{Canada, U.S.A.} sNorth_America 




















表 6.6 习题 6.7 的 泛 化 关系 

major statu age nationality gpa count 
S 

French M.A over 30 Canada 2..8,.03..2 3 

CS junio 16...20 Europe 32225530 29 
工 

physics M.S 26...30 Latin Americ 3.2...3.6 18 

a 

engineeri Ph.D 26...30 Asia 3.6...4.0 78 

ng 

philosoph Ph.D 26...30 Europe 3.2...3.6 5 

y 

French senio 16...20 Canada SA 40 
r 

chemistry junio 21...25 U.S.A. 3.6...4.0 25 
六 

CS senio 16...20 Canada 95 70 
工 

philosoph M.S over 30 Canada 3.6...4.0 15 

y 

French junio 16...20 U.S.A. 2 8 2 8 
r 

philosoph junio 26...30 Canada 2 Bg 2 9 

y 下 

philosoph M.S 26...30 Asia 32 06 9 

y 

French junio 16...20 Canada 2209.6 52 
工 

math senio 16...20 U.S.A. 3.6...4.0 32 
工 

CS junio 16...20 Canada 3.2.r8>6 76 













































































philosoph Ph.D 26...30 Canada 3.6...4.0 14 

y 

philosoph senio 26...30 Canada 238 352 19 

y r 

French Ph. D over 30 Canada 2 87 003 2 1 

engineeri junio 21...25 Europe 8 26 71 

ng r 

math Ph.D 26...30 Latin Americ 3.2...3.6 7 

a 

chemistry junio 16...20 U.S.A. 3.6...4.0 46 
节 

engineeri junio 21...25 Canada 6) 96 

ng 

French M.S over 30 Latin Americ 3.2...3.6 4 

a 

philosoph junio 21...25 U.S.A. 2 B22 8 

y r 

math junio 16...20 Canada 3.6...4.0 59 
让 

设 最 小 支持 度 阔 值 为 2%， 最 小 置信 和 度 闵 值 为 50% (每 一 层 〉。 
网 男 出 statzs，7m27Jom ase，1nat7Tona77t 的 概念 分 层 
(b) 对 所 有 层 使 用 一 致 的 支持 度 ， 对 于 下 面 的 规则 模板 
VER P(S,x) 人 QO(S,y) 之 gpa(y z) [s, c] 
其 中 ，P O es {status, major, age, nationality}。 找 出 R i 关联 规则 。 








(c) 使 用 层 交 叉 单 项 过 滤 ， 找 出 R 中 的 多 





则 模板 的 最 低 抽 象 层 : 


VSeR PS,x) 和 ^\ OQ(S,y) S epa(s, z) 





不 要 挖掘 交叉 层 规则 。 








6.8 提出 并 给 出 挖掘 多 层 关联 规则 的 层 共 享 控 

一 次 初始 数据 库 扫描 收集 每 个 概念 
掘 多 层 关 联 规 则 与 挖掘 单 层 关联 规则 的 花费 进行 比较 。 
6.9 证 明 : 包含 项 和 其 祖先 及 的 项 入 






































层 交 叉 关 联 规则 挖掘 。 











[s, c] 
































层 强 关联 规则 。 其 中 ， 递 减 的 支持 度 10% 用 于 如 下 规 








必 方 法 的 要 点 。 其 中 ， 每 个 项 用 它 的 层 位置 编 码 ， 
层 的 每 个 项 的 计数 ， 





























识别 频繁 和 子 频繁 项 集 。 将 用 该 方法 挖 











集 有 的 支持 度 


与 项 自 





集 大 有 的 支持 度 相同 。 解 释 如 何 将 它 用 于 








6. 10 在 挖掘 层 交 叉 关 联 规则 时 ， 假 定 发 现 项 集 "{IBM dssktop computer，printer} ”不 满足 最 小 支 




















持 度 。 这 一 信息 可 以 用 来 前 去 诸如 ”{IBM desktop co 
挖掘 吗 ? 给 出 一 个 一 般 规 则 ， 解 释 这 一 信息 
6. 11 提出 一 种 挖掘 混合 维 关 联 规则 (多 维 关 联 规则 ， 




















如 何 用 














4H 











puter，b/w printerj* 的 “后 代 ” 项 集 的 





对 搜索 空间 剪 枝 。 





有 





重复 谓词 ) 的 方法 。 




















6. 12 给 出 一 个 短 例子 ， 表 明 强 关联 规则 中 的 项 可 能 实际 上 是 负 相 关 的 。 
6.13 下 面 的 相依 表 汇 总 了 超级 We 
示 不 包含 热狗 的 事务 ，humburgers 表示 包含 














事务 。 


其 中 ， 





骨 


hot dog 表示 包含 热狗 的 





志 务 ， hotdosg 表 











堡 包 的 事务 ，humpburgers 表示 不 包含 汉堡 包 的 














hot dog hotdog 


ro 





humburgers 


humburgers 
sof 


2, 000 
1, 000 


3, 000 


500 
1, 500 


2, 00 


0 


2, 500 
2, 500 


5, 000 





(a) 假定 发 现 关联 规则 ”hot dog 二 humburgers”"。 给 定 最 小 支持 度 阔 值 25%， 最 小 置信 度 阔 值 
50%， 该 关联 规则 是 强 的 吗 ? 






























































(b) 根据 给 定 的 数据 ， 买 hot dog 独立 于 买 humburgers 吗 ? 如 果 不 是 ， 二 者 之 间 存 在 何 种 相关 


联系 ? 











6. 14 序列 模式 可 以 用 类 似 于 关联 规则 挖掘 的 方法 挖掘 。 设 计 一 个 有 效 的 算法 ， 由 事务 数据 库 挖掘 
多 层 序列 模式 。 这 种 模式 的 一 个 例子 如 下 : “ 买 PC 的 顾客 在 三 个 月 内 将 买 Microsoft 软件 ”， 
在 其 上 ， 可 以 下 钻 ， 发 现 该 模式 的 更 详细 的 版 本 ， 如 “ 买 Pentium Pro 的 顾客 在 三 个 月 内 将 买 
Microsoft Office ”。 

6.15 证 明 下 面 表 中 的 每 一 项 正确 地 刻画 了 它 对 应 的 关于 频繁 项 集 挖 掘 的 规则 限制 。 

































































































































































规则 限制 反 单 调 性 ”单调 性 ”简洁 性 
(a ves 否 是 是 
2 是 合 是 
8 Min(S) < v 否 是 是 
‘ ransge (S$) <v 是 个 人 否 
4 avg(S) >v 可 变 的 可 变 的 ” 否 




















6. 16 商店 里 每 种 商品 的 价格 是 非 负 的 。 商 店 经 理 上 只 关心 如 下 形式 的 规则 : “一 件 免 费 商品 可 能 触 
发 在 同一 事务 中 $200 的 总 购物 ”。 陈 述 如 何 有 效 地 挖掘 这 种 规则 。 

6. 17 商店 里 每 种 商品 的 价格 是 非 负 的 。 对 于 以 下 每 种 情况 ， 识 别 它们 提供 的 限制 类 型 ， 并 简略 讨 
论 如 何 有 效 地 挖掘 这 种 关联 规则 。 
(a) “至 少 包含 一 件 Nintendo 游戏 。 
(pb) 包含 一 些 商品 ， 它 们 的 单价 和 小 于 $150。 
(c) 包含 一 件 免费 商品 ， 并 且 其 它 商品 的 单价 和 至 少 是 $200。 
(d) 所 有 商品 的 平均 价格 在 $100 和 $500 之 间 。 




















































































































文献 注释 

关联 规则 挖掘 首先 由 Agrawal，Imielinski 和 Swami [AIS93b] 提出 。6. 2. 1 小节 讨论 的 Aprior7 
算法 由 Agrawal 和 Srikant [AS94] 提出 。 使 用 类 似 的 前 枝 方 法 的 算法 变形 独立 地 由 Mannila， 
Toivonen 和 Verkamo[MTV94] 开 发 。 结 合 这 些 工作 的 联合 出 版 物 稍 后 出 现在 AgaNrawal，Mannila 
Skrikant，Toivonen 和 Verkamo[AMS+96] 。 产 生 关 联 规 则 的 方法 在 Agrawal 和 Srikant[AS94a] 中 介 
绍 。6. 2. 3 小 节 的 Apriori 的 变形 包括 如 下 引文 。 使 用 hasph 表 提 高 关联 规则 挖掘 效率 被 Park, Chen 
和 Yu[PCY95] 研 究 , 扫 描 和 事务 压缩 技术 在 Agrawal 和 Srikant[AS94b],Han 和 Fu[HF95], 以 及 Park,， 
Chen 和 Yu[PCY95a] 中 介绍 。 划 分 技术 由 Savasere，0miecinski 和 Navathe[SON95] 提 出 。 选 样 方 法 
在 Toivonen[Toi96] 中 讨论 。 动 态 项 集 计数 在 Brin，Motwani，Ullman 和 Tsur[BMUT97] 中 给 出 。 关 
联 规则 挖掘 有 许多 扩充 ,包括 序列 模式 挖掘 (Agrawal 和 Srikant[AS95]),espisodes 挖掘 (Mannila， 
Toivonen 和 Verkamo[MTV97] ) ， 挖 掘 空间 关联 规则 〈Kopeski 和 Han[KH95] ) ， 挖 气 有 环 的 关联 规 
则 (Ozden，Ramaswamy 和 Silberschatz[ORS98] ) ， 挖 掘 和 否定 的 关联 规则 (Savasere，0Omiecinski 
和 Navathe[SON98] ), 挖掘 事务 间 关 联 规则 (Lu，Han 和 Feng[LHF98] ) 和 有 日历 购 物 篮 分 析 (Ramaswamy， 
Mahajan 和 Silberschatz[RMS98] ) 。 最 大 模式 的 挖掘 在 Bayaedo[Bay98] 中 介绍 。 频 繁 闭合 项 集 的 
挖掘 由 Pasquier，Bastile，Taouil 和 Lakhal[PBTL99] 提 出 ， 而 有 效 的 挖掘 算法 由 Pei，Han 和 
Mao[PHM00] 提 出 。 冰 山 查 询 在 Fang，Shivakumar，Garcia-Molina 等 [FSGM+98] 中 介绍 ， 而 Beyer 
和 Ramakrishnan[BR99] 开发 了 冰山 查询 的 有 效 计 算 方 法 。 频 繁 项 集 的 深度 优先 产生 由 
Agrawal, Aggarwal 和 Prasad[AAP00] 提 出 。 挖 掘 频繁 模式 而 不 产生 候选 的 方法 由 Han，Pie 和 
Yin[HPY00] 提 出 。 
多 层 关 联 规则 挖掘 在 Han 和 Fu[HF95],Srikant 和 Agrawal[SA95] 中 研究 。 在 Srikant 和 Agrawal 
[SAj 中 ， 这 种 挖掘 以 广义 关联 规则 的 形式 研究 ， 并 提出 R- 兴 趣 度 度量 ， 以 删除 元 余 规则 。 

6.4.3 小 节 介 绍 的 根据 规则 聚 类 挖掘 量化 关联 规则 的 ARCS 系统 由 Lent, Swami 和 Widom[LSW97] 
提出 。 基 于 净 单调 和 直线 区 间 挖 据 量 化 规则 的 技术 由 Fukuda，Morimoto，Morishita 和 
Tokuyama[FMMT96] ，Yoda，Fukuda，Morimoto 等 [YFM+97] 提 出 。 挖 气量 化 关联 规则 的 非 基 于 栅 格 的 































































































































































































































































































































































































技术 使 用 部 分 完全 性 度量 ， 




















出 。6. 4.3 小 节 介 











的 挖掘 区 间 数 据 上 
























































在 数据 挖掘 中 规则 的 统计 独立 公 
被 Chen，Han 和 Yu[CHY96] 
E 广 关 


FE 被 Piatetski Shapiro 

















联 到 相关 的 有 效 方法 在 Brin，Motwani 和 Silverste 
平 佑 关联 规则 兴趣 度 的 支持 度 -置信 和 度 框架 的 

Ahmed，EI-Makky 和 Taha[AEMT00] 中 提 
了 挖 抉 事务 数据 库 因果 关系 结构 的 问题 。 
使 用 元 规则 作为 语法 或 语义 过 滤器 ,定义 
Ronkainen 等 [KMR+94] 提 出 。 元 规则 伟 
出 ; 那里 ， 元 规则 后 件 指 定 
则 制导 的 挖掘 基于 关系 的 方法 在 Fu 和 Han[HF95] 中 研究 。 
Chiang[KHC97] 中 研究 。6.4.2 小 节 基 于 限制 的 关联 规 
Pang[NLHP98], Lakshmanan, Ng, Han 和 Pang [LNHP99], 
关 集 的 有 效 方法 在 Grahne, Lakshmanan 和 Wang[GLW00j]! 
的 其 它 思 想 在 [AK93，DT93，HK91，LHC97，St96，SVA97 
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Srikant 和 Agrawal[SA96] 提 
的 (基于 距离 的 ) 关联 规则 由 Miller 和 Yang[MY97] 提 出 。 使 
挖掘 多 维 关 联 规 则 被 Kamber，Han 和 Chiang[KHC97] 研 究 。 


，Brin，Motwani 和 Silverstein[BMS97], 


关联 规则 的 感 兴趣 形式 1 
央 导 的 挖掘 在 Shen，0ng，Mitbander 和 Zaniolo 
于 满足 元 规则 前 件 的 数据 的 动作 (如 ， 贝 叶 斯 聚 类 ) 


Pei 短 
/人 
给 出 。 


] 中 讨论 。 
本 章 提 供 的 关联 规则 挖掘 语言 基于 Han，Fu，Wang 等 [HFW+96] 提 出 的 数据 挖掘 查询 语言 DMQL 
SQL 的 操作 。 预 计 今 后 











[PS91] 研究 。 强 


in[BMS97] ， 并 从 
n, Motwani, 


























基于 数据 方 的 方法 在 Ka 
则 挖掘 在 Ng， Lakshma 
1 Han [PH00] 中 研究 。 


























的 扩充 ， 结 合 了 由 Meo, Paila 和 Ceri[MPC96] 提 出 的 挖掘 单 维 关联 规则 的 类 
的 版 本 将 遵循 Microsoft 公司 提出 的 DM 0LE DB[Mic00] 语 法 。 

挖掘 关联 规则 的 有 效 渐 增 更 新 由 CheungHan，Ng 和 Wong[CHNW96] 提 出 。 在 Apriori 框架 下 ， 
行 和 分 布 关 联 规则 挖掘 被 Park, Chen 和 YuLPCY95b]，Agrawal 和 Shafer[AS96]，Cheung，han， 
等 [CHN+96] 研 究 。 另 一 种 并 行 关联 规则 挖掘 方法 使 用 垂直 数据 库 设 计 探 查 











Parthasarathy，0gihara 和 Li[ZP0L97] 中 提出 。 





Klemettinen, Manni 


nan, 
挖掘 受 限 的 相 
涉及 在 挖掘 中 使 用 模板 或 ? 





量化 属性 的 静态 离散 化 和 数据 方 ， 


关联 规则 的 兴趣 度 问题 

Aggarwal , Yu[AY99] 讨论 。 a 
育 略 总 结 6. 5. 2 小节 中 。 
Ullman 和 Tsur [BMUT97]， 
出 。Silverstein，Brin，Motwani 和 Ullman[SBMU98 jh 
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[SOMZ96] 中 提 
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项 集聚 类 ， 在 Zakij， 


第 七 章 分 类 和 预测 























数据 库 内 容 丰 富 ， 蕴 藏 大 量 信息 ， 可 以 用 来 作出 智能 的 商务 决策 。 分 类 和 预测 是 两 种 数据 分 析 
形式 , 可 以 用 于 提取 描述 重要 数据 类 的 模型 或 预测 未 来 的 数据 趋势 。 然而, 分 类 是 预测 分 类 标号 (或 
离散 值 》， 而 预测 建立 连续 值 函数 模型 。 例 如 ， 可 以 建立 一 个 分 类 模型 ， 对 银行 贷 球 的 安全 或 风险 
进行 分 类 ;而 可 以 建立 预测 模型 ， 给 定 潜在 顾客 的 收入 和 职业 ， 预 测 他 们 在 计算 机 设备 上 的 花费 。 
许多 分 类 和 预测 方法 已 被 机 器 学 习 、 专 家 系统 、 统 计 和 神经 生物 学 方面 的 研究 者 提出 。 大 部 分 算 
是 内 存 算 法 ， 通 常 假定 数据 量 很 小 。 最 近 的 数据 挖 气 研 究 建 立 在 这 些 工 作 之 上 ， 开 发 了 可 规模 化 的 
分 类 和 预测 技术 ， 能 够 处 理 大 的 、 驻 留 磁 盘 的 数据 。 这 些 技 术 通 常 考虑 并 行 和 分 布 处 理 。 

本 章 ， 你 将 学 习 数据 分 类 的 基本 技术 ， 如 判定 树 归 纳 、 贝 叶 斯 分 类 和 贝 叶 斯 网 络 、 神 经 网 络 。 
数据 仓库 技术 与 分 类 的 集成 ， 以 及 基于 关联 的 分 类 也 在 本 章 讨论 。 本 章 还 介绍 其 它 分 类 方法 ， 如 天 
最 临近 分 类 、 基 于 案例 的 推理 、 遗 传 算法 、 粗 糙 集 和 模糊 逻辑 技术 。 预 测 方法 ， 包 括 线性 的 、 非 线 
性 的 、 广 义 线性 回归 也 将 简要 讨论 。 你 将 学 会 修改 、 扩 充 和 优化 这 些 技术 ， 将 它们 应 用 到 大 型 数据 
库 的 分 类 和 预测 。 
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7.1 什么 是 分 类 ? 什么 是 预测 ? 


数据 分 类 是 一 个 两 步 过 程 ( 图 7.1)。 第 一 步 ， 建 立 一 个 模型 ， 描 述 预 定 的 数据 类 或 概念 集 。 通 
过 分 析 由 属性 描述 的 数据 库 元 组 来 构造 模型 。 假 定 每 个 元 组 属于 一 个 预定 义 的 类 ， 由 一 个 称 作 类 标 
号 属性 的 属性 确定 。 对 于 分 类 ， 数 据 元 组 也 称 作 样 本 、 实 例 或 对 象 。 为 建立 模型 而 被 分 析 的 数据 元 
组 形成 训练 数据 集 。 训 练 数 据 集中 的 单个 元 组 称 作 训练 样本 ， 并 随机 地 由 样本 群 选取 。 由 于 提供 了 
每 个 训练 样本 的 类 标号 ， 该 步 也 称 作 有 指导 的 学 习 《 即 ， 模 型 的 学 习 在 被 告知 每 个 训练 样本 属于 哪 
个 类 的 “指导 ”下 进行 )。 它 不 同 于 无 指导 的 学 习 《〈 或 聚 类 )， 那 里 每 个 训练 样本 的 类 标号 是 未 知 的 ， 
要 学 习 的 类 集合 或 数量 也 可 能 事先 不 知道 。 聚 类 是 第 8 章 的 主题 。 
通常 ， 学 习 模 型 用 分 类 规则 、 判 定 树 或 数学 公式 的 形式 提供 。 例 如 ， 给 定 一 个 顾客 信用 信息 的 
数据 库 ， 可 以 学 习 分 类 规则 ， 根 据 他 们 的 信誉 度 优 或 相当 好 来 识别 顾客 〈 图 7.1(a) )。 该 规则 可 以 用 
来 为 以 后 的 数据 样本 分 类 ， 也 能 对 数据 库 的 内 容 提供 更 好 的 理解 。 

第 二 步 〈 图 7.1(b))， 使 用 模型 进行 分 类 。 首 先 评估 模型 (分 类 法 ) 的 预测 准确 率 。 本 章 的 7.9 
节 介 绍 评估 分 类 准确 率 的 多 种 方法 。 保持 (holdout) 方法 是 一 种 使 用 类 标号 样本 测试 集 的 简单 方法 。 
这 些 样本 随机 选取 ， 并 独立 于 训练 样本 。 模 型 在 给 定 测试 集 上 的 准确 率 是 正确 被 模型 分 类 的 测试 样 
本 的 百分比 。 对 于 每 个 测试 样本 ， 将 已 知 的 类 标号 与 该 样本 的 学 习 模 型 类 预测 比较 。 注 意 ， 如 果 模 
型 的 准确 率 根据 训练 数据 集 评估 ， 评 估 可 能 是 乐观 的 ， 因 为 学 习 模型 倾向 于 过 分 适合 数据 ( 即 ， 它 
可 能 并 入 训练 数据 中 茶 些 异常 ， 这 些 异常 不 出 现在 总 体 样本 群 中 )。 因 此 ， 使 用 测试 集 。 
如 果 认 为 模型 的 准确 率 可 以 接受 ， 就 可 以 用 它 对 类 标号 未 知 的 数据 元 组 或 对 象 进行 分 类 。( 这 
种 数据 在 机 器 学 习 也 称 为 “未 知 的 ”或 “先前 未 见 到 的 ”数据 )。 例 如 ， 在 图 7.1(a) 通 过 分 析 现 有 顾 
客 数 据 学 习 得 到 的 分 类 规则 可 以 用 来 预测 新 的 或 未 来 顾客 的 信誉 度 。 
“预测 和 分 类 有 何不 同 ? ”预测 是 构造 和 使 用 模型 评估 无 标号 样本 ,或 评估 给 定 样本 可 能 具有 
的 属性 值 或 值 区 间 。 在 这 种 观点 下 ， 分 类 和 回归 是 两 类 主要 预测 问题 ， 其 中 ， 分 类 是 预测 离散 或 标 
称 值 ， 而 回归 用 于 预测 连续 或 有 序 值 。 然 而 ， 我 们 的 观点 是 : 预测 类 标号 为 分 类 ， 预 测 连续 值 〈 例 
如 ， 使 用 回归 方法 ) 为 预测 。 这 种 观点 在 数据 挖掘 界 广泛 接受 。 

分 类 和 预测 具有 广泛 的 应 用 ， 包 括 信 誉 证 实 、 医 疗 诊断 、 性 能 预测 和 选择 购物 。 
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图 7.1 数据 分 类 过 程 : (a) 学 习 : 用 分 类 算法 分 析 训 练 数 据 。 这 里 ， 类 标号 属性 是 
credit_rating， 学 习 模 型 或 分 类 法 以 分 类 规则 形式 提供 。 (2) 分 类 : 测试 数 
据 用 于 评估 分 类 规则 的 准确 率 。 如 果 准 确 率 是 可 以 接受 的 ， 则 规则 用 于 新 的 
数据 元 组 分 类 





























例 7.1 假定 我 们 有 一 个 AllElectronics 的 邮寄 清音 数据库。 邮寄 清 单 用 于 分 发 介绍 新 产品 和 降 
价 信息 材料 。 数 据 库 描述 顾客 的 属性 ， 如 他 们 的 姓名 、 年 龄 、 收 入 、 职 业 和 信誉 度 。 顾 客 可 以 按 他 
们 是 否 在 AllElectronics 购买 计算 机 分 类 。 假 定 新 的 顾客 添加 到 数据 库 中 ， 你 想 将 新 计算 机 的 销售 信 
县 通知 顾客 。 将 促销 材料 分 发 给 数据 库 中 的 每 个 新 顾客 的 费用 可 能 很 高 。 一 个 更 有 效 的 方法 是 只 给 
那些 可 能 买 新 计算 机 的 顾客 寄 材 料 。 为 此 ， 可 以 构造 和 使 用 分 类 模型 。 
另外 ， 假 定 你 想 预 测 在 一 个 财政 年 度 ， 一 个 顾客 将 在 AllElectronics 进行 的 主要 购买 数量 。 
预测 的 值 是 有 序 的 ， 为 此 可 以 构造 一 个 预测 模型 。 口 
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7.2 ”关于 分 类 和 预测 的 问题 


本 节 介 绍 分 类 和 预测 数据 的 预 处 理 问 题 。 分 类 方法 的 比较 和 评估 标准 也 在 本 节 介 绍 。 





7.2.1 准备 分 类 和 预测 数据 





可 以 对 数据 使 用 下 面 的 预 处 到 


数据 清理 : 
性 最 常 出 现 的 值 ， 
法 都 有 处 理 品 


相关 性 分 析 : 
















































































误导 学 


慢 和 习 步 又。 


理想 地 ， 用 在 相关 分 析 上 的 时 间 ， 加 上 从 “压缩 的 ”结果 子 集 上 学 习 的 时 间 ， 


















































储 公 





原来 的 数 





集合 上 学 习 所 花 的 时 i 





司 。 


E， 以 便 提高 分 类 和 预测 过 


是 则 在 消除 或 减少 数据 噪音 例如， 使 用 习 
或 根据 统计 ， 用 最 可 能 的 值 蔡 换 遗漏 值 
音 和 遗漏 值 的 机 制 ， 但 该 步骤 有 助 了 


数据 中 许多 属性 可 能 与 分 类 和 预 涡 
的 数据 可 能 与 应 用 的 成 功 不 相关 。 此 外 ， 其 它 属 性 
删除 学 习 过 程 中 不 相关 或 见 余 属 性 。 在 机 器 学 习 ， 这 一 





寸 程 的 准 















































可 能 是 元 余华 


过 程 称 为 特征 选择 。 








因此 ， 这 种 分 析 可 以 帮助 提高 分 类 的 有 效 性 和 可 规模 性 。 














非常 有 用 。 例 如 ， 属 性 
似 地 ， 标 称 值 ， 
学 习 


数据 也 可 以 规范 人 


及 将 属 


时 


例如 ， 在 使 用 






























































数据 变换 : 数据 可 以 泛 化 至 
income 的 数值 
如 street， 可 以 泛 化 到 高 层 概念 ， 
时 的 输入 /输出 操作 将 减少 。 

， 特 别 是 在 学 习 阶 段 使 用 # 
性 的 所 有 值 按 比 例 允 
E 离 度量 的 方法 中 ， 这 可 以 防止 











| 较 高 层 概念 。 概 念 分 层 























可 以 








于 此 目的 。 对 于 连 给 
值 可 以 泛 化 为 离散 的 区 间 ， 如 7om medium 和 和 high。 类 


如 city。 由 于 泛 化 压缩 了 原来 的 训练 数据 ， 


























缩放 ， 使 得 它们 落 入 i 


较 4 
































较 小 初始 域 的 属性 
数据 清理 、 



































7.2.2 ”比较 分 类 方法 。 

















(如 二 进位 属 
相关 分 析 和 数据 变换 已 在 本 : 





性 ) 权重 过 大 。 
























































分 类 和 预测 方法 可 以 根据 下 列 标准 进行 比较 和 评估 : 
”预测 的 准确 率 ， 这 涉及 模型 正确 地 预测 新 的 或 先前 未 见 过 
昌 ”速度 这 涉及 产生 和 使 用 模型 的 计算 花费 。 
四 ”强壮 性 : 这 涉及 给 定 噪音 数据 或 具有 遗漏 值 的 数据 ， 模 型 正太 
”可 规模 性 ， 这 涉及 给 定 大 量 数 据 ， 有 效 地 构造 模型 的 能 
四 ”可 解释 性 ， 这 涉及 学 习 模 型 提供 的 理解 和 洞察 的 层次 。 












































Bs 的 第 3 章 详 


有 较 大 初始 域 的 忆 





这 些 问题 的 讨论 贯穿 本 章 。 数 据 库 研 究 界 对 数据 挖掘 的 分 


特别 是 对 判定 树 归 纳 。 


7.3 用 判定 树 归 纳 分 类 


“什么 是 判定 树 ?”” 判 定 树 是 一 个 类 似 于 
上 的 测试 ， 每 个 分 校 代表 一 个 测试 输出 ， 而 每 个 树 
图 7. 2 所 示 。 它 表 酉 
可 能 购买 计算 机 。 内 部 结 点 用 算 玫 




















性 
结 点 。 一 棵 典型 的 判定 树 如 
的 顾客 是 否 

介 类 




















名 





流程 


























为 了 对 未 知 的 样本 分 类 ， 
判定 树 容易 转换 成 分 类 规则 。 
在 7.3.1 小节， 




















样 














本 的 属性 值 














图 检测 和 前 去 这 利 





的 树 结 构 : 其 
叶 结 点 代表 类 或 类 
示 概 念 xys_compzter， 即 ， 
表 示 ， 而 树叶 用 椭圆 表示 。 

在 判定 树 上 测试 。 路 径 由 杠 


我 们 介绍 学 习 判定 树 的 基本 算法 。 在 判定 树 构造 B 
练 数 据 中 的 噪音 或 局 外 者 。 树 剪 校 试 





分 枝 ， 


经 网 络 或 涉及 


` 的 指定 区 间 ， 妇 


品 





细 介 








上 








乡 


性 


。 相 关 分 析 还 在 第 5 


确 性 、 有 效 性 和 可 规模 性 。 
F 滑 技术 ) 和 处 理 
) 的 数据 预 处 理 。 

















遗漏 值 ( 例 如 ， 用 该 属 
尽管 大 部 分 分 类 算 
































减少 学 习 时 的 混乱 。 


I 任务 不 相关 。 例 如 ， 记 录 银 行 贷 
。 因 此 ， 可 以 进行 相关 分 析 ， 


| 大 


球星 期 儿 签 署 
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是 
疝 








包含 这 些 





性 将 减 


应 当 少 于 由 

















卖 值 属性 ， 这 一 步 











下 离 度量 的 方法 时 。 规 范 化 涉 
上 -1.0 到 1.0,， 或 0.0 到 1.0。 











(如 zincome) 相对 于 具有 


介 


介绍 过 。 














的 数据 的 类 标号 的 能 力 。 




















预测 的 能 力 。 


类 和 预测 的 贡献 一 直 强 调 可 规模 性 ， 














~ 








每 个 内 部 结 点 表示 在 一 个 属 
分 布 。 树 的 最 顶层 结 点 是 根 
它 预测 AllElectronics 





























以 提高 在 未 知 数据 上 分 类 的 准确 


到 存放 该 样本 预测 的 叶 结 点 。 


寺 ， 许 多 分 校 可 能 反映 的 是 训 


性 。 




















树 前 枝 在 7. 3. 2 小 节 介 乡 


树 归 纳 与 诸如 数据 方 等 数据 仓库 机 制 的 集成 ， 允 许多 个 粒度 层 的 判定 树 挖掘 。 
游戏 理论 和 商务 等 应 月 


















































。 由 判定 树 提取 分 类 规则 在 7. 3. 3 小 节 讨论 。 
7. 3.4 小 节 给 出 。 大 型 数据 库 判定 树 归纳 的 可 规模 性 问题 在 7. 3. 5 小 节 讨 论 。7. 3. 6 小 节 介绍 判定 




















基本 判定 树 算法 的 加 强 


在 























判定 树 已 在 





| 医疗 


























上 领域 广泛 使 用 。 判 定 树 是 一 些 商 业 规则 归纳 系统 的 基础 。 




































































图 7.2 概念 buys_computer 的 判定 树 , 指出 471787ectronics 的 顾客 是 否 可 能 购买 
计算 机 。 每 个 内 部 ( 非 树 叶 ) 结 点 表示 一 个 属性 上 的 测试 ， 每 个 树叶 结 点 代 
表 一 个 类 (buys computer = yes,， 或 buys computer = n0) 
算法 : Generate decision tree。 由 给 定 的 训练 数据 产生 判定 树 。 
输入 : 训练 样本 samp7es， 由 离散 值 属性 表示 ; 候选 属性 的 集合 attribute Jist。 
输出 : 一 棵 判定 树 。 
方法 : 
(1) 创建 结 点 N; 
(2) if samples 都 在 同一 个 类 C then 


(3) 
(4) 
(5) 
(6) 
(7) 
(8) 
(9) 
(10) 
(11) 
(12) 
(13) 


if attribput 77st 为 空 then 


选择 attribute 77st 中 具有 
标记 结 点 N 为 test attribute; 
for each test attribute 中 的 未 知 值 a ; 


return N 作为 叶 结 点 ， 以 类 C 标记 ; 





return N 作为 叶 结 点 ， 标 记 为 


samples 口 








后 .过 
站 取 阁 
































了 最 高 信息 





























由 结 点 











通 的 类 ; 


//majority voting 


增益 的 属性 test attripbute; 


//partition the samples 
长 出 一 个 条 件 为 test_attribute = a ;的 分 枝 ; 


设 s 是 samples 中 test_attribute = a ;的 样本 的 集合 ; //a partition 


if s 为 空 then 


加 上 一 个 树叶 ， 标 记 为 samwp7es: 


上 


加 


else 个 























由 


attribute 1ist-test attribute) 返 回 的 结 点 ; 





最 普通 的 类 ; 
Generate decision tree(sn 





7.3.1 


判定 树 归 纳 的 基本 算法 是 贪心 算法 , 它 以 





7. 3 中 ， 是 一 利 
本 策略 如 下 : 














图 7.3 




















判定 树 归纳 









































田 ” 树 以 代表 训练 样本 的 单个 结 点 开始 (步骤 1) 。 
四 ”如果 样 本 都 在 同一 个 类 ， 则 该 结 点 成 为 树叶 ， 并 用 该 类 标号 〈 步 又 2 和 3) 。 




















1 训练 样本 归纳 判定 树 的 基本 算法 





顶 向 下 递归 的 划分 -控制 方式 构造 判定 树 。 算 法 在 图 








到 




















和 著名 的 判定 树 算法 ID3 版 本 。 算 法 的 扩展 将 在 7. 3.2 到 7. 3. 6 小 节 讨论 。 算 法 的 


及 








四 ”和 合 则 ， 算 法 使 用 称 为 信息 增益 的 基于 焙 的 度量 作为 启发 信息 ， 选 择 能 够 最 好 地 将 样本 分 类 的 属 
性 “步骤 6) 。 该 属性 成 为 该 结 点 的 “测试 ”或 “判定 ”属性 〈 步 又 7) 。 在 算法 的 该 版 本 中 ， 
所 有 的 属性 都 是 分 类 的 ， 即 离散 值 。 连 续 属 性 必须 离散 化 。 


”对 测试 属性 的 每 个 已 知 的 值 ， 创 建 一 个 分 校 ， 并 据 此 划分 样本 (步骤 8-10)。 


”算法 使 用 同样 的 过 程 , 递归 地 形成 每 个 划分 上 的 样本 判定 树 。 一 旦 一 个 属性 出 现在 一 个 结 点 上 ， 
就 不 必 该 结 点 的 任何 后 代 上 考虑 它 〈 步 又 13) 。 


昌 递归 划分 步骤 仅 当 下 列 条 件 之 一 成 立 停止: 


(a) 给 定 结 点 的 所 有 样本 属于 同一 类 《〈 步 又 2 和 3) 。 
(b) 没有 剩余 属性 可 以 用 来 进一步 划分 样本 〈 步 又 4) 。 在 此 情况 下 ,使 用 多 数 表 决 〈 步 又 5) 。 












































































































































这 涉及 将 给 定 的 结 点 转换 成 树叶 ， 并 用 样本 中 的 多 数 所 在 的 类 标记 它 。 替 换 地 ， 可 以 存放 结 
点 样本 的 类 分 布 。 








(c) 分 枝 test_attribute = a ;没有 样本 〈 步 又 11) 。 在 这 种 情况 下 ， 以 samples 中 的 多 数 类 
创建 一 个 树叶 (步骤 12) 。 























属性 选择 度量 
在 树 的 每 个 结 点 上 使 用 信息 增益 度量 选择 测试 属性 。 这 种 度量 称 作 属性 选择 度量 或 分 裂 的 优 劣 















































度量 。 选 择 具 有 最 高 信息 增益 或 最 大 炳 压缩 的 属性 作为 当前 结 点 的 测试 属性 。 该 属性 使 得 对 结 
果 划 分 中 的 样本 分 类 所 需 的 信息 量 最 小 ， 并 反映 划分 的 最 小 随机 性 或 “不 纯 性 ”。 这 种 信息 理论 
方法 使 得 对 一 个 对 象 分 类 所 需 的 期 望 测试 数目 最 小 ， 并 确保 找到 一 棵 简单 的 〈 但 不 必 是 最 简单 的 ) 
树 。 


















































































































































设 ?是 s 个 数据 样本 的 集合 。 假 定 类 标号 属性 具有 也 个 不 同 值 ， 定 义 也 个 不 同类 GC; (7=1,...， 
夏 。 设 si 是 类 C 中 的 样本 数 。 对 一 个 给 定 的 样本 分 类 所 需 的 期 望 信息 由 下 式 给 出 : 
7(0S1，82 Sm) =- P: log,(p;) 
i= 
(7. 1) 

















其 中 ，p; 是 任意 样本 属于 C 的 概率 ， 并 用 s; A 估计 。 注 意 ， 对 数 函数 以 2 为 底 ， 因 为 信息 用 
二 进位 编码 。 
















































































































































































设 属性 4 具有 v 个 不 同 值 {&,...， 2a。 可 以 用 属性 4 将 S$ 划 分 为 v 个 子 集 {5,,...， 5 ; 其 中 ， 

9 包含 5 中 这 样 一 些 样本 ， 它 们 在 4 上 具有 值 a;。 如 果 4 选 作 测试 属性 ( 即 ， 最 好 的 划分 属性 〉， 

则 这 些 子 集 对 应 于 由 包含 集合 5 的 结 点 生长 出 来 的 分 枝 。 设 sij 是 子 集 5; 中 类 CG 的 样本 数 。 根 据 4 
划分 子 集 的 业 或 期 望 信息 由 下 式 给 出 : 

0 (7.2) 


























中 充当 第 j 个 子 集 的 权 ， 并 且 等 于 子 集 ( 即 ，4 值 为 a) 中 的 样本 个 数 除 以 5 中 
的 样本 总 数 。 粹 值 越 小 ， 子 集 划 分 的 纯度 越 高 。 注 意 ， 对 于 给 定 的 子 集 5 





























(7. 3) 


S$, 

其 中 ， py = 一 一 

”5 
在 4 上 分 枝 将 获得 的 编码 信息 是 

Gain(A)= (s,s,,...,5,,) — E(A) (7. 4) 


， 是 5; 中 的 样本 属于 CG 的 概率 。 





换言之 ，Gain (4) 是 1 
算法 计算 每 个 属 
个 结 点 ， 并 以 该 属性 标记 ， 对 











怕 





nm 





























于 知道 属性 4 的 值 而 


好 致 的 和 的 期 望 压缩 。 









































E 的 信息 

















增益 。 具 有 最 





高 信 ， 县 增益 的 属性 
属性 的 每 个 值 创 建 分 枝 ， 并 据 此 划分 样本 。 





例 7.2 判定 树 归纳 。 表 7. 1 给 出 了 取 自 A 














算 每 个 属性 的 信息 增益 ， 我 们 首先 使 月 








据 取 自 [Qui86]) 。 类 标号 属性 buys_computer 
的 类 (m= 2) 。 设 类 对 应 于 yes， 而 类 














1(s1,s3) =1(9,5) = 























有 两 个 不 同 值 〈 即 ， {yes, 20] ) ， 因 此 有 








GG 对 应 于 n0。 类 yes 有 9 个 样本 ， 
日 (7. 1) 式 ， 计 算 对 给 定 样 








5 


9 9 5 
二 lo 二 1 = 0.940 
14 3214 14 “8214 


选 作 给 定 集合 5 的 测试 属性 。 








11Electronics 顾客 数据 库 数 据 元 组 训练 集 。 





创建 一 


(该 数 























两 个 不 同 


人 为 计 


本 分 ) 类 所 需 的 期 望 信息 














表 7.1 AllElectronics 顾客 数据 库 训 练 数 据 元 组 
R age inco st credit_ Class: 
ID me udent rating buys computer 
1 “=3 high no fair no 
0 
2 <=3 high ho excelle no 
0 nt 
3 31. high no fair yes 
. .40 
4 >40 medi no fair yes 
um 
5 >40 low ye fair yes 
S 
6 >40 low ye excelle no 
S nt 
7 31; low ye excelle yes 
..40 S nt 
8 “=3 medi no fair no 
0 um 
9 《=3 low ye fair yes 
0 
1 >40 medi ye fair yes 
0 um S 
1 《=3 medi ye excelle yes 
1 0 um S nt 
1 31. medi no excelle yes 
2 ..40 um nt 
J dls high ye fair yes 
3 ..40 S 
1 >40 medi no excelle no 
4 um nt 





下 一 步 ， 我 们 需要 计算 每 个 属性 的 粹 。 让 我 们 从 居 
的 yes 和 no 分 布 。 我 们 对 每 个 分 布 计算 


院 

















对 
= ”=30” 
对 
i 

对 
”>40” 











Aage 


Aage 


age 


I 











aw 





和 证 一 2 
次 散 一 4 
S13= 3 











期 望 信息 。 





S21= 3 Tsy, S21) > 

sz2= 0 0.971 

S23= 2 Tsy, S22) = 
0 


Ts, S23) TT 
0.971 


性 age 开始 。 我 们 需要 观察 age 的 每 个 样本 





使 用 (7. 2) 式 ， 如 果 样 本 按 ase 划 分， 对 一 个 给 定 的 样本 分 类 所 需 的 期 望 信息 为 : 


3 4 3 
E(age) = a A = 0.694 


此 ， 这 种 划分 的 信息 增益 是 
gain(age)= 1(s1,s,)— E(age) = 0.246 








时 








类 似 地 ,我 们 可 以 计算 Gain (income) = 0. 029,，Gain (student) =0.151 和 Gain(credit rating) 
= 0.048。 由 于 ase 在 属性 中 具有 最 高 信息 增益 ， 它 被 选 作 测试 属性 。 创 建 一 个 结 点 ， 用 age 标记 ， 
并 对 于 每 个 属性 值 , 引出 一 个 分 枝 。 样本 据 此 划分 , 如 图 7.4 所 示 。 注意 , 沙 在 分 区 age= “31...40” 
的 样本 都 属于 同一 类 。 由 于 它们 都 属于 同一 类 yes， 因 此 要 在 该 分 枝 的 端点 创建 一 个 树叶 ， 并 用 yes 
标记 。 算 法 返回 的 最 终 判 定 树 如 图 7. 2 所 示 。 口 











































































































| ror [etudent [erechit_ratinel class| 


Ingh MD tar Yes 
low Yes excellent | Yes 
medium | rw excellent | Yes 

lg Es far es 


图 7. 4: 属性 age 具有 最 高 信息 增益 , 因此 成 为 判定 树 根 的 测试 属性 。 
I 每 个 age 引出 分 校 ， 样 本 据 此 划分 

总 而 言 之 ， 判 定 树 归 纳 算法 已 在 广泛 的 应 用 领域 用 于 分 类 。 这 种 系统 不 使 用 领域 知识 。 判 定 树 
归纳 的 学 习 和 分 类 步骤 通常 很 快 。 




































































7.3.2” 树 前 枝 


当 判 定 树 创建 时 ， 由 于 数据 中 的 噪音 和 局 外 者 ， 许 多 分 村 反映 的 是 训练 数据 中 的 异常 。 前 校方 
法 处 理 这 种 过 分 适应 数据 问题 。 通 常 ， 这 种 方法 使 用 统计 度量 ， 剪 去 最 不 可 靠 的 分 枝 ， 这 将 导致 较 
快 的 分 类 ， 提 高 树 独立 于 测试 数据 正确 分 类 的 可 靠 性 。 

“ 树 剪 枝 如 何 做 ? ”有 两 种 常用 的 剪 校方 法 。 

在 先 剪 枝 方法 中 ， 通 过 提前 停止 树 的 构造 〈 例 如 ， 通 过 决定 在 给 定 的 结 点 上 不 再 分 裂 或 划分 训 
练 样本 的 子 集 ) 而 对 树 “ 剪 校 ”。 一 旦 停止 ， 结 点 成 为 树叶 。 该 树叶 可 能 持 有 子 集 样本 中 最 频繁 的 
类 ， 或 这 些 样本 的 概率 分 布 。 
在 构造 树 时 ， 统 计 意 义 下 的 度量 ， 如 Xx 、 信 息 增 益 等 ， 可 以 用 于 评估 分 裂 的 优 劣 。 如 果 在 一 个 
结 点 划分 样本 将 导致 低 于 预定 义 阔 值 的 分 裂 ， 则 给 定子 集 的 进一步 划分 将 停止 。 然 而 ， 选 取 一 个 适 
当 的 阐 值 是 困难 的 。 较 高 的 阐 值 可 能 导致 过 分 简化 的 树 ， 而 较 低 的 阔 值 可 能 使 得 树 的 化 简 太 少 。 

第 二 种 方法 是 后 剪 枝 方 法 ， 它 由 “完全 生长 ”的 树 剪 去 分 枚 。 通 过 删除 结 点 的 分 极 ， 剪 掉 树 结 
点 。 代 价 复杂 性 剪 枝 算 法 是 后 剪 枝 方法 的 一 个 实例 。 最 下 面 的 未 被 剪 校 的 结 点 成 为 树叶 ， 并 用 它 先 
前 分 枝 中 最 频繁 的 类 标记 。 对 于 树 中 每 个 非 树 叶 结 点 ， 算 法 计算 该 结 点 上 的 子 树 被 剪 梳 可 能 出 现 的 
期 望 错误 率 。 然 后 ， 使 用 每 个 分 校 的 错误 率 ， 结 合 治 每 个 分 枝 观 察 的 权重 评估 ， 计 算 不 对 该 结 点 剪 
枝 的 期 望 错误 率 。 如 果 剪 去 该 结 点 导致 较 高 的 期 望 错误 率 ， 则 保留 该 子 树 ， 和 否则 剪 去 该 子 树 。 逐 渐 
产生 一 组 被 剪 校 的 树 之 后 ， 使 用 一 个 独立 的 测试 集 评估 每 棵 树 的 准确 率 ， 就 能 得 到 具有 最 小 期 望 错 
误 率 的 判定 树 。 

































































































































































































































































我 们 可 以 根据 编码 所 需 的 二 进位 位 数 ， 而 不 是 
使 得 编码 所 需 的 二 进位 最 少 。 这 种 方法 采 
最 期 望 的 。 不 象 代价 复杂 性 剪 枝 ， 它 不 需要 独立 的 样本 集 。 
上 先 剪 校 和 后 剪 枝 ， 形 成 组 合式 方法 。 后 剪 枝 所 需 的 计算 比 》 





也 可 以 交叉 使 有 


生 更 可 靠 的 树 。 


















































7.3.3 由 判定 树 提取 分 类 规则 


“我 可 以 由 我 的 判定 树 得 到 分 类 规则 吗 ? 如 
以 IF-THEN 形式 的 分 类 规则 表示 。 对 从 根 





民 据 期 望 错误 率 ， 对 树 进 行 剪 枝 。 


“最 但 








= 的 枝 树 ” 





] 最 小 描述 长 度 (MDL) 原则 。 由 该 原则 ， 


里 





简单 的 解 是 





到 








四 台 忆 





木 有 ， 车 




















么 做 ? ”可 以 提取 判定 树 表 示 的 知识 ， 并 
到 树叶 的 每 条 路 经 创建 一 个 规则 。 治 着 给 定 路 经 上 的 每 个 








E 前 校 多 ， 但 通常 F 








属性 - 值 对 形成 规则 前 件 (“IF” 部 分 的 一 个 合 取 项 。 叶 结 点 包含 类 预测 ， 形 成 规则 后 件 (“THEN” 


部 分 ) 。IF-THEN 规则 易 卫 


成 IF-THEN 分 类 规则 。 












































1 医 | 







































































里 解 ， 特 别 是 当 给 定 的 树 很 大 时 。 


例 7.3 由 判定 树 产 生 分 类 规则 。 沿 着 由 根 结 点 到 树叶 结 点 的 路 经 ， 医 
7.2 提取 的 规则 是 : 











































































































7.2 的 判定 树 可 以 转换 


IF age = ”=30”AND student = “no’ THEN pbuys computer = “no” 
IF age = ”=30”AND student = “yes” THEN buys computer = “yes” 
IF age = ”31...40” THEN buys computer = “yes” 
IF age = ”>40” AND credit rating = THEN buys_ computer = “no” 
“excel/lent” THEN buys computer = “yes” 
IF age = ”>40” AND credit rating = [DD 
fan 
C4.5 (ID3 算法 的 后 继 版 本 〉 使 用 训练 样本 估计 每 个 规则 的 准确 率 。 由 于 这 将 导致 对 规则 的 准 
戎 率 的 乐观 估计 ，5C4. 5 使 用 一 种 翡 观 估计 来 补偿 人 和 偏差。 替换 地 ， 也 可 以 使 用 一 组 独立 于 训练 样本 的 
测试 样本 来 评估 准确 性 。 
通过 删除 规则 前 件 中 无 助 于 改进 规则 评估 准确 性 的 条 件 ， 可 以 对 规则 “ 剪 棱 ”。 对 于 每 一 类 ， 
类 中 规则 可 以 按 它 们 的 精确 度 定 序 。 由 于 一 个 给 定 的 样本 可 能 不 满足 任何 规则 前 件 ， 通 常 将 一 个 指 


定 主要 类 的 省 缺 规则 添加 到 
































规则 集中 。 





7.3.4 基本 判定 树 归纳 的 加 强 


强 。 本 小 节 ， 我 们 将 讨论 若干 主 
1 小 节 的 判定 树 归纳 基本 算法 要 求 所 有 的 


怕 


许 属性 具 


及 


相 邻 值 的 中 间 值 。 如 果 这 些 值 已 


率 ， 它 考虑 每 个 属 





值 禁 代 。 蔡 换 地 ， 属 性 4 的 外 观 上 的 信息 增益 


“对 基本 判定 树 归纳 的 





0 强 











要 








加 强 ， 其 中 

















7.3. 











一 些 结合 


到 ID3 的 后 继 算 法 C4.5 中 。 














EE 


是 
疝 








有 整个 离散 区 间或 连续 值 。 在 这 种 
其 中 7 是 4 的 某 个 数值 值 。 给 定 4 的 值 
预先 排序 ， 则 
合 具 有 

它 





















































信息 增益 度量 有 倾斜 ， 它 倾向 于 适合 具 
属性 值 的 概率 。 还 有 一 些 其 


已 经 提出 了 许多 方法 来 处 理 遗 漏 的 属性 





























值 
































是 指 一 个 给 定 分 枝 ! 
树 结 点 可 以 测试 一 个 属 怕 
文 
现 二 又 判定 树 
复制 是 复制 树 中 己 存 在 的 子 树 。 属 性 (特征 ) 构造 是 防止 这 三 个 问题 的 一 种 方法 。 通 过 


有 缺少 值 的 样本 “片段 ”可 以 在 测试 结 点 被 蕊 
使 用 4 和 其 











它 属 性 的 已 知 联系 。 











通过 重复 地 将 数据 划分 成 越 来 越 小 的 部 分 






































判定 树 ， 其 每 个 分 枝 拥 有 一 个 属性 


| 上 的 布 
传统 的 判定 树 更 精确 。 当 


当 











个 


























V, 


许多 值 的 属性 。 


选择 度量 ， 























EA 









































外 定 时 


区 
需要 扫描 
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~™ 








次 这 些 值 

















o 






































局 性 4 的 遗漏 值 或 未 知 值 可 以 


。 例 如 ， 


也 可 以 根据 4 的 值 未 知 的 样本 百分比 减少 。 这 样 





， 判 定 树 归 纳 可 能 面临 碎片 、 重 复 和 复 











有 哪些 ? ”业已 提出 了 许多 对 7. 3. 1 小 节 判 定 树 归 纳 基本 算法 的 加 


属性 是 分 类 的 或 离散 化 的 。 可 以 修改 该 算法 ， 允 
的 测试 导致 两 个 分 枝 ， 对 应 于 条 件 4< V 和 4> 
考虑 斑 1 个 可 能 的 分 制 。 通 常 ， 考 虑 每 对 


已 经 提出 了 一 些 替 代 的 方法 ， 如 增益 
包括 Gini 索引 ,x 相依 表 统 计 和 G- 统 计 。 


用 4 的 最 各 见 


| 分 到 多 个 分 校 。 其 它 方法 可 能 寻找 4 的 最 可 能 值 ， 


制 问题 。 











男 一 种 





尔 测试 。 二 又 树 导致 较 少 的 数据 碎片 。 一 


属性 沿 树 的 一 个 给 定 分 校 重复 测试 时 ， 


























蔡 











>» pr 


或 
碎片 


的 样本 数 太 小 ， 没 有 统计 意义 。 解 决 该 问题 的 一 种 方法 是 将 分 类 属性 值 分 组 。 
E 值 是 否 属于 给 定 的 集合 ， 如 hie fa ao ...，ar}。 





代 是 创建 二 








此 二 











实验 丰 


忆 




















完 发 


出 现 重 复 。 
给 定 的 属 


性 创建 


过 。 


数据 学 习 获 得 
此 对 基本 判定 树 归 纳 的 加 强 ， 




















了 的 


属性 ， 





改进 给 





定 属性 的 受 限 表示 。 属 性 构造 作为 数据 变换 的 一 利 








业已 提出 了 判定 树 归 引 


内 

















的 判定 树 ， 





还 有 














7.3.5 和 7. 3.6 小节 讨论 。 


] 


的 增 量 版 


不 是 66 下 


7.3.5 判定 树 归纳 的 可 规模 性 


高 速 缓存 换 进 换 出 ， 判 


这 些 仍 然 假定 训练 集 
可 以 放 在 内 存 ;然后 ， 由 每 个 子 集 构造 一 棵 判 
一 起 。 尽 管 该 方法 可 以 用 于 








法 组 合 在 





“判定 树 归 纳 的 可 














人 
三 

















是 和 

















通 的 。 因 
定 树 的 构造 可 能 变 得 效率 











本 。 当 给 定 
盲目 地 ”通过 学 习 构 造 一 棵 


新 的 训练 数据 时 ， 增 量 方 法 重 


新 树 。 























规模 性 如 何 ? ”已 
很 有 效 的 。 当 这 些 算法 用 于 
问题 。 大 部 分 判定 树 算法 都 限 秆 
常 大 的 训练 集 


非常 大 的 、 现 实 





| 训练 
此 5 这 





已 有 









































样本 驻 留 主 存 。 在 数据 挖掘 应 用 中 ， 





























大 型 数据 库 构造 判定 树 的 早期 策略 包括 








可 以 放 在 主 存 。 








氏 下 。 








对 











一 种 蔡 代 的 方法 是 : 首先 ， 将 样本 划分 成 子 集 ， 




















方法 高 。 





引 。 











最 近 ， 已 经 





每 个 元 组 由 一 个 从 每 个 属性 表 的 一 个 表 目 到 类 表 的 








是 出 了 一 些 判定 树 算 法 ， 
算法 包括 SLIQ 和 SPRINT; 它们 都 能 处 理 分 类 
对 非常 大 ， 而 不 能 放 入 内 存 的 驻 留 磁盘 
以 利于 树 的 构造 。SLIQ 使 用 若干 驻 留 磁盘 
SLIQ 产生 的 属性 表 和 类 表 如 





图 7.5 





所 示 。 





它们 关注 可 规模 性 和 与 数据 仓库 技术 的 集成 。 这 些 分 别 在 


的 判定 树 算法 ， 如 ID3 和 C4. 5， 对 本 
革 界 数据 库 的 挖 抉 时， 有 效 性 和 可 规模 性 就 成 了 关注 
包含 数 以 百 万 计 样 本 的 非 
一 限制 就 制约 了 这 些 算法 的 可 规模 性 。 由 于 


和 形式， 已 在 第 2 章 讨论 





所 构造 由 先前 的 训练 











六 相对 小 的 数据 集 是 
的 








训练 样本 在 主 在 和 





连续 属性 离散 化 ， 在 每 个 结 点 对 数据 选 样 。 然 而 ， 


使 得 每 个 子 集 








定 树 ;， 最 后 ， 输 出 的 分 类 法 将 由 每 个 子 集 得 到 的 分 类 











大 数据 集 的 分 类 ， 其 分 类 的 准确 


性 











它们 强调 可 规模 性 。 由 非常 大 

属性 和 连续 值 属性 。 这 两 种 算法 都 

的 数据 集 进行 预 排序 。 

的 属性 表 和 单个 驻 留 主 存 的 类 表 。, 对 于 
属性 


每 一 个 属性 具有 一 个 属性 表 ， 在 RID 


"| 


























































































































性 能 下 降 。 





表示 。 而 类 表 表 目 链接 到 它 在 判定 树 
枝 时 ， 经常 访问 它 。 





类 表 的 大 小 随 训练 集 ， 


表 7.2: 类 buys computer 的 样本 数据 








中 对 应 的 叶子 结 点 。 类 表 驻 
元 组 数目 成 比例 增长 。 当 





留 在 主 存 ， 基 









































RI credit 工 a buys_com 
D ating Se puter 

1 Excellen 3 yes 

二 8 
2 Excellen 2 yes 

t 6 
3 Fair 3 no 

5 

4 Excellen 4 no 

t 9 









credit rating 


Cont 


otent | 
[| 
区 可 


驻 留 磁盘 一 属性 











驻 留 内 存 一 类 表 


不 如 一 次 使 


两 种 算法 都 定义 使 




















所 有 的 数据 的 








的 训练 集 进行 判定 树 归 纳 的 


使 用 了 预 排序 技术 ， 
用 新 的 数据 结构 ， 
表 7.2 的 样本 数据 ， 
(记录 标识 ) 建立 索 

















个 表 目 (存放 给 定 元 组 的 类 标号 ) 的 链接 
为 判定 树 的 构造 和 前 
类 表 不 能 放 在 主 存 时 ，SLIQ 的 


















区 









































7.5: 对 于 表 7. 2 样 














































































































本 数据 ，SLIQ 使 用 





的 属性 表 和 类 











结 点 分 裂 时 ， 属 性 



































因此 ， 划 分 表 不 需 


















































例 于 训练 集 





类 表 
SPRINT 使 用 不 同 的 属性 表 数 据 结 构 ， 存 放 类 和 AD 信息， 如 图 7.6 所 示 。 当 
表 被 相应 划分 ， 并 在 结果 子女 中 分 布 。 当 表 划 分 时 ， 表 中 记录 的 次 序 维持 不 变 。 
要 重新 排序 。 SPRINT 的 设计 易于 并 行 ， 这 就 进一步 增强 了 可 规模 性 
credit buys_com buys_comp ] 
_rating puter id ge uter id 
Excell Yes yes 
ent 6 
Excell Yes no 
ent 5 
Excell No yes 
ent 8 
fair No 了 no 
9 
图 7.6 ”对 于 表 7.2 的 样本 数据 ， SPRINT 使 用 的 属性 表 数 据 结 构 
当 SLIQ 和 SPRINT 处 理 的 驻 留 磁盘 的 数据 太 大 ， 不 能 一 次 装 入 内 存 时 ，SLIQ 的 可 规模 性 受 限于 
它 所 使 用 的 常 驻 内 存 的 数据 结构 。SPRINT 消除 了 所 有 的 内 存 限制 , 但 仍然 需要 使 用 正 上 
的 散 列 树 。 随 着 训练 集 的 增长 ， 这 可 能 变 得 代价 昂贵 。 














雨林 (RainForest) 是 用 对 





用 于 任意 
雨林 的 

















馈 过 SPRINT。 








可 规模 化 的 判定 树 归 纳 的 框 








蕊 判定 树 归 纳 算 法 。 它 使 用 一 个 AVC- 集 (属性 
速度 


7.3.6 集成 数据 仓库 技术 和 判定 树 归纳 








向 属性 








于 埋 





数 

















特 化 树 的 结 点 ， 














据 方 方法 可 以 与 判定 树 归纳 名 
中 的 知识 可 以 用 于 在 不 同 的 抽象 层 归 纳 判 定 树 。 出 




















点 使 得 














当 我 们 将 
对 非常 


2 








户 可 以 将 他 们 
面向 属 物 











可 以 在 属性 上 进行 上 卷 或 下 钻 ， 





的 注 








各 A0I 与 判定 树 归纳 集成 时 ， 
高 的 概念 层 的 泛 化 可 
念 丢 失 了 。 应 当 泛 化 到 




















的 使 用 可 能 

















引进 
































E 产 生 更 易 到 
的 方法 (如 SLIQ 或 SPRI 

对 判定 树 的 典型 批评 是 ， 
就 失去 统计 意义 。 这 种 “无 意义 ”的 数据 子 负 
个 例外 阔 值 。 如 果 给 











台 已 已 
月 上 可 


领域 专家 设 定 ， 或 
E 解 的 、 较 小 的 分 类 树 ， 从 而 得 到 的 树 比 直 
T) 产生 的 树 更 易于 解释 。 


意 力 集中 在 他 们 感 兴趣 的 树 

















值 

















判定 树 归纳 可 以 与 数据 仓库 技术 集成 ， 用 于 数据 挖 
的 归纳 如 何 与 判定 树 归纳 集成 ， 
它 形式 的 学 习 。 


以 利于 交互 的 多 





层 挖掘 。 





形成， 提 作 








外 ， 
并 对 








交互 的 判定 本 的 多 层 抛 据 。 











的 归纳 (AOI) 使 用 概念 分 层 ， 通 过 以 高 层 概念 





架 。 该 方法 适合 
类 标号 ) ， 指 示 每 个 属性 类 分 布 。 据 称 ， 


一 般 地 ， 


旦 导出 判定 树 ， 概 念 
新 的 特定 抽象 层 和 
Es 



































的 。 这 














问题 


该 闵 值 ， 在 给 定 


页 可 以 通过 使 
结 点 上 的 进 一 


























于 递归 地 划分 ， 












































这 里 介 





有 大 和 


EJ 





























用 的 内 存 ， 并 





据 。 本 小 节 ， 我 们 讨论 多 维 数据 方 方 法 和 面 
的 技术 也 可 以 用 





数据 方 和 存放 在 概念 分 层 
:分 层 可 以 用 来 泛 化 或 
的 数据 重新 分 类 。 这 种 交互 特 





蔡 换 低层 概念 泛 化 训练 数据 (第 5 章 ) 。 





























一 些 数据 子 集 可 和 





值 控 人 























定子 集中 的 样本 数 少 于 该 阐 值 
建 一 个 叶 绪 点 ， 存 放 该 子 集 和 该 子 集 样本 的 类 分 布 。 
于 大 型 数据 库 中 的 数据 量 














长 的 最 大 尺寸 可 以 统计 地 确定 





过 度 泛 化 ， 


E 变 得 太 小 ， 


些 有 趣 、 











| 的 某 个 中 间 概 念 层 。 
接 在 低层 、 非 泛 化 的 数据 集 上 操作 


使 得 进 一 




















泛 化 到 很 低 的 (特定 的 ) 概念 层 可 能 导致 非常 大 而 茂盛 的 树 。 
致 判定 树 没什么 用 ; 这里， 由 于 
I 用户 指定 的 阔 


重要 的 子 概 
这 样 ，AOI 








步 划 分 它们 








。 为 处 

















准确 率 或 分 类 阐 值 解决 。 如 果 属 于 
步 划 分 将 终止 。 














EE 大、 发散 ， 假 定 每 个 树叶 包含 属于 一 


， 该 子 集 的 进 











人 








里 这 
步 划分 停止。 


问题 ， 可 以 
蔡 换 地 ， 创 


























个 公共 类 的 样 


点 的 任意 





本 可 能 是 不 合理 
类 的 样本 百分比 

















» 


超过 


2 





的 收入 和 职业 ， 预 测 30 多 岁 的 顾客 的 信用 风险 ， 可 以 月 


子 句 条 件 的 元 组 将 被 忽略 ， 并 


(GT 


省 缺 
任务 


7.4 


如 给 


类 的 














数据 挖掘 查询 语言 可 以 容易 地 





mine classfication 
analyze credit risk 














于 说 明 增 强 的 判定 树 归纳 方法 。 














in relevance to income, occupation 


from Customer db 
Where (age>=30) 
display as rules 


and 


上 面 用 DMQL 表达 的 查询 在 Customer db 上 执行 关系 查询 ， 提取 和 
且 仅 收集 in relevance to 




















然后 ，A0I 在 这 些 数据 


(age<40) 


子 句 











上 操作 。 














的 概念 分 层 。 可 以 设计 一 个 图 
更 加 容易 。 借 助 于 这 种 办 法 ， 








贝 叶 斯 分 类 


“什么 是 贝 叶 斯 分 类 ? 
定 样本 属于 一 个 特定 类 的 概率 。 





发 9 » 














贝 叶 斯 分 类 




















形 用 户 界面 ， 使 得 
用 户 可 以 指导 自动 的 数据 挖 









































是 统计 学 分 类 方法 。 它 们 可 
































贝 叶 斯 分 类 基于 贝 叶 斯 定型 
简单 贝 叶 斯 分 类 算法 可 以 与 判 

















也 已 


做 此 假定 是 为 了 简 


象 由 


表现 出 高 准确 率 与 高 速度 
朴素 贝 叶 斯 分 类 假定 一 个 属 











怕 








E， 在 - 


E 值 


Ls 


下 面 介绍 。 分 类 算法 的 比较 看 
定 树 和 神经 网 络 分 类 算法 相 媲美 


入 o 











属性 








对 给 定 类 的 影响 独立 于 其 它 














于 该 查询 并 未 说 明 所 月 
] 户 通过 这 种 数据 挖 扩 
届 过 程 。 


完 发 现 ， 














假定 数据 挖掘 任 务 是 根据 顾客 


日 如 下 数据 挖掘 查询 来 说 明 : 





E 务 相关 的 数据 。 不 满足 where 
中 说 明 的 属性 和 类 标号 属性 
的 概念 分 层 ， 因 此 使 用 
时 查询 语言 说 明 数 据 控 据 





和 















































以 预测 类 成 员 关 系 的 可 能 性 ， 


一 种 称 作 朴素 贝 叶 斯 分 
用 于 大 型 数据 库 ， 贝 叶 斯 分 类 











的 值 。 该 假定 称 作 类 条 件 独立 。 




















站 全 已 


已 能 表示 
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叶 斯 朴素 分 类 





属性 





7. 4. 1 小 节 回顾 基本 的 概率 概念 和 贝 叶 斯 定理 。 
































化 所 需 计 算 ， 并 在 此 意义 下 称 为 “朴素 的 ”。 


由 


叶 斯 信念 网 络 是 图 





形 模型 。 不 








子 集 间 的 依赖 。 贝 叶 斯 信念 


然后 ， 


网 络 也 








E 














你 将 在 7. 4. 2 小 节 学 习 朴素 贝 叶 斯 








可 以 用 于 分 类 。 








分 类 。 


届 于 某 特 定 的 类 C。 对 于 分 








贝 叶 斯 信念 网 络 在 7. 4. 3 小节 介绍 。 
7.4.1 ” 贝 叶 斯 定理 
设 工 是 类 标号 未 知 的 数据 样本 。 设 7 为 某 种 假定 ， 如 ， 数 据 样 本 不 
类 问题 ， 我 们 希望 确定 P( 瓦 |X) 一 一 给 定 观 测 数 据 样 本 五 假定 7 成 立 的 概率 。 


它们 
到 了 
们 的 
比 先 





概率 。 


的 的 


算 。 
贝 叶 




















PCH |X) 是 后 验 概率 ， 或 条 人 
的 颜色 和 形状 描述 。 假 定 了 表 
是 红色 3 是 
例子 , 它 是 任意 给 定 的 数据 样 
验 概率 P(D 基 于 更 多 的 信息 
类 似 地 ，P(X | 五 ) 是 条 们 
P( 吧 是 了 的 先 验 概率 。 使 用 
概率 。 

“如 何 计算 这 些 概率 ? ”了 














瑟 


的 时 ， 我 们 对 了 


风 
































本 为 苹果 的 
己 \ 《如 ， 背 
a 


FE 下， 的 后 验 概 率 。 例 如 ， 假 定数 据 样本 1 
的 ， 有 表示 假定 了 是 苹果 ， 则 P( 玉 |X) 反映 当 我 们 看 
上 信 程度 。P (J 是 先 验 概率 ， 或 8 的 先 验 概率 。 对 于 我 
本 看 上 去 如 何 ,后 验 概率 P(H |X) 
POD 是 独立 于 了 的 。 








示 红 色 和 
是 苹果 的 而 





吾 
由 








全 























,而 不 管 数据 样 





既 当 
知识 ) 。 
了 的 后 验 概率 。 即 
我 们 的 例子 ， 它 是 


全 





























~ 





， 它 是 已 和 
我 们 的 水 


1 了 是 


日 
果 集 



































E 如 我 们 下 面 将 看 到 的 ，P()，POVD 和 P(X|H) 可 以 由 给 




















贝 叶 斯 定理 是 有 用 的 ， 它 提供 














了 一 种 



































斯 定理 是 





EF AE ， 


下 一 小 节 ， 你 将 学 


习 如 何在 朴素 贝 叶 斯 分 类 中 使 月 














日 贝 叶 斯 定理 。 











世界 由 水 果 组 成 ， 用 








苹果 ,是 红色 并 且 是 圆 的 的 
取出 一 个 数据 样本 是 红 的 和 圆 


丰 



































定 的 数据 计 








1 PE，P( 力 和 PXI 已 ) 计算 后 验 概率 P( 瑟 |) 的 方法 。 


P(X |H)P(H) 
P(X) 
C7.52 


P(H|X)= 


7.4.2 ”朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 ， 或 简单 贝 叶 斯 分 类 的 工作 过 程 如 下 ;: 

































































1. 每 个 数据 样本 用 一 个 了 维特 征 向 量 X ={xi,x,x} 表 示 ， 描 述 由 属性 4 ,4 ,4 对 样本 的 了 
个 度量 。 
2. 假定 及 个 类 Ci,C,,…,C,,。 给 定 一 个 未 知 的 数据 样本 了 ( 即 ， 没 有 类 标号 ) ， 分 类 法 将 预测 了 





属于 具有 最 高 后 验 概率 〈 条 件 了 下 ) 的 类 。 即 ， 朴 素 贝 叶 斯 分 类 将 未 知 的 样本 分 配给 类 GC; ， 当 
且 仅 当 : 











P(C;|X)>P(C) |X) 1<7<m jz#i 


这 样 ， 我 们 最 大 化 P(C, |X)。 其 P(C, |X) 最 大 的 类 C 称 为 最 大 后 验 假定 。 根 据 贝 叶 斯 定理 
((7.5) 式 )， 








P(X|C,)P(C.,) 
P(X) 
(7. 6) 


于 POCO 对 于 所 有 类 为 常数 ， 只 需要 P(X|C;)P(C;) 最 大 即 可 。 如 果 类 的 先 验 概率 未 知 ， 则 通 

常 假定 这 些 类 是 等 概率 的 ; 即 ，P(C1)=P(Cs)=.…=P(C,)。 并 据 此 对 只 P(C; |X) 最 大 化 。 否则 ， 
我 们 最 大 化 PCX|C;)P(C;) 。 注 意 ， 类 的 先 验 概率 可 以 用 P(C;) = sj/s 计算 ， 其 中 ，s; 是 类 C 中 
的 训练 样本 数 ， 而 s 是 训练 样本 总 数 。 

4. 给 定 具 有 许多 属性 的 数据 集 ， 计 算 P(X|C;) 的 开销 可 能 非常 大 。 为 降低 计算 P(X|C;) 的 开销 ， 
可 以 做 类 条 件 独立 的 朴素 假定 。 给 定 样本 的 类 标号 ， 假 定 属性 值 条 件 地 相互 独立 。 即 ， 在 属性 
间 ， 不 存在 依赖 关系 。 这 样 ， 





P(C; | X)= 




















CD 




























































































P(x1C)=| [pt 1C;) 
k=1 


C7: 7 




















概率 P(xi |C;)， Px, | CC) Pe Px, |C;) 可 WI 训练 样本 估 值 ， 其 中 ， 
(a) 如 果 水 是 分 类 属性 ， 则 P(x |C;)= si /s;; 其 中 si 是 在 属性 4 上 具有 值 五 的 类 CG; 的 训练 

样本 数 ， 而 s; 是 C 中 的 训练 样本 数 。 
(b) 如 果 是 连续 值 属性 ， 则 通常 假定 该 属性 服从 高 斯 分 布 。 因 而 ， 



























































Cpc 
1 202 
SG SCOR OR | 
Aoc, 
(7.8) 




















二 中 》 给 定 类 GC 的 训练 样本 属性 水 的 值 ， 8 (Xx "Hc, IC ) 是 属性 水 的 高 斯 密度 函数 ， 
而 we ,ae 分 别 为 平均 值 和 标准 差 。 


5， 为 对 未 知 样本 了 分 类 ， 对 每 个 类 CG， 计算 P(X|C;)P(C;)。 样 本 了 被 指派 到 类 C， 当 且 仅 当 ; 


P(X|C)P(C) > P(XICH)PC)) 1<jsm jzi. 




















换言之 ,，X 被 指派 到 其 P(X|C;)P(C;) 最 大 的 类 C。 


“ 贝 叶 斯 分 类 的 效率 如 何 ? ”理论 上 讲 ， 与 其 它 所 有 分 类 算法 相 比 ， 贝 叶 斯 分 类 具有 最 小 的 出 
错 率 。 然 而 ， 实 践 中 并 非 总 是 如 此 。 这 是 由 于 对 其 应 用 的 假定 〈 如 ， 类 条 件 独立 性 ) 的 不 正确 性 ， 

































































































































































缺乏 可 用 的 概率 数据 造成 的 。 然 而 ， 种 种 实验 研究 表明 ， 与 判定 树 和 神经 网 络 分 类 算法 相 比 ， 
































以 及 

在 某 些 领域 ， 该 分 类 算法 可 以 与 乙 媲美 。 
贝 叶 斯 分 类 

假定 下 ， 可 以 证 明正 如 朴素 贝 叶 























斯 分 类 一 样 ， 许 多 神经 网 络 和 























还 可 以 用 来 为 不 直接 使 用 贝 叶 斯 定理 的 其 它 分 类 算法 提供 
曲线 拟 合算 法 输出 最 大 的 后 验 假定 。 











理论 判定 。 例 如 ， 在 某 种 











例 7.4 使 用 朴素 贝 叶 斯 分 类 预测 类 标号 : 给 定 与 例 7. 2 判定 树 归纳 相同 的 训练 数据 ， 我 们 希 


望 使 用 朴素 贝 叶 斯 分 类 预测 一 个 未 知 林 
ncome, student 和 credit rating 


no} ) 。 


分 类 








的 未 知 样本 为 : 























述 。 类 标号 属性 buys_computer 


设 CC 对 应 于 类 buys_computer =“yes”， 而 对 应 于 类 buys computer = 











本 的 类 标号 。 训 练 数据 在 表 7. 1 
具有 两 个 不 同 值 〔 即 ， 














。 数 据 样 本 用 属性 age， 


{yes， 

















“no”。 我 们 希望 


X =(age ="<=30",income =" medium", student =" yes",credit _ rating =" fair"). 


Plbuys computer 





yes) 


9/14 





我 们 需要 最 大 化 P(X|CG)P(C;) ，i = 1 2。 每 个 类 的 先 验 概率 P(C;) 可 以 根据 训练 样本 计算 : 
0. 643 


Plbuys computer = n0) = 5/14 = 0.357 





为 计算 PX|C,)， 7 = 1,2。 我 们 计算 下 面 的 条 件 概率 : 
Plage = “<¢30” / buys computer = “yes”) = 2/9 = 
0. 222 
Plage = “<¢30” / buys computer = “no”) = 3/5 = 
0. 600 
Plincome ="“medium’” / buys computer = Se -9 
“yes”) 0. 444 
Plincome = “medium” / buys computer = = 
“no0”) 0. 400 
Plstudent = “yes” / buys computer = = 6/9 = 
“ yes”) 0.667 
Plstudent = “yes” / buys computer = -v1 二 
“no0”) 0. 200 
Plcredit rating E “fair” / = 6/9 = 
buys computer = “yes”) 0. 667 
Plcredit rating 六 “Fa / 二 
buys computer = “no”) 0. 400 


使 用 以 上 概率 ， 我 们 得 到 : 


PO / buys computer = “yes”) = 0.222x0. 444x0. 667x0. 667 = 0. 044 

PO / buys computer = “no”) = 0.600x0. 400x0. 200x0. 400 = 0.019 
PO / buys computer = “yes”) P(buys computer = “yes”) = 0.044x0.643 = 0.028 
PO / buys computer = “no”) Plbuys computer = “no”) = 0.019x0.357 = 0.007 


时 





7.4.3 ” 贝 叶 斯 信念 网 络 


一 假定 简化 了 计算 。 当 假定 成 立时 , 与 
在 实践 中 ， 变 量 之 间 的 依赖 可 能 存在 。 贝 叶 斯 信念 网 络 说 明 联合 概率 分 布 。 它 允许 在 变量 的 子 集 间 


定义 类 条 件 独立 性 。 它 提供 一 种 





朴素 贝 叶 斯 分 类 假定 类 条 件 独立 。 即 ， 给 定 相 









































因果 关系 的 








它 所 有 











分 类 算法 相 








此 ， 对 于 样本 部 朴素 贝 叶 斯 分 类 预测 buys computer 二 yes”。 口 


本 的 类 标号 ， 属 性 的 值 可 以 条 件 地 相互 独立 。 这 
日 比 ， 朴 素 贝 叶 斯 分 类 是 最 精确 











的 。 然 而 ， 























名 





形 ， 可 以 在 











络 、 贝 叶 斯 网 络 和 概率 网 络 。 为 简洁 计 ， 我 们 称 它 为 信念 网 络 。 


人 








信念 网 络 
































两 部 分 定义 。 第 一 部 分 是 有 向 无 环 
一 个 概率 依赖 。 如 果 一 条 弧 由 结 点 Y 到 72， 则 Y 是 Z 的 双亲 或 直接 前 驱 ， 而 Z 是 Y 的 后 继 。 给 








区 日 


3» 























大 一 | 
每 个 结 





给 定 的 实际 属性 ， 或 对 应 于 一 个 相信 形成 联系 的 “隐藏 变量 ” 


点 代 


上 进行 学 习 。 


人 





这 种 网 络 也 被 称 作 信念 网 
一 个 随机 变量 ， 而 每 条 弧 代 


jk 


A 
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其 双亲 ， 每 个 变量 条 件 独立 于 图 中 的 非 后 继 。 变 量 可 以 是 离散 的 或 连续 值 的 。 





1， 





它们 可 以 对 应 于 数据 
医疗 数据 中 的 综合 病症 〉。 



































图 7.7(a) 给 出 了 一 个 6 个 布尔 变量 的 简单 信念 网 络 ， 取 自 [RN95] 。 弧 表示 因果 知识 。 例 如 ， 得 
肺癌 受 其 家 族 肺 癌 史 的 影响 , 也 受 其 是 否 吸烟 的 影响 。 此 外 , 该 弧 还 表明 :给 定 其 双亲 Am777N7stozry 
和 Smoker， 变 量 LuneCancer 条件 地 独立 于 Bmphysema。 这 意味 ,一旦 fami7IyHistory 和 Smoker 的 
己 知 ， 变 量 Bphysema 并 不 提供 关于 LungCancer 的 附加 信息 。 
定义 信念 网 络 的 第 二 部 分 是 每 个 属性 一 个 条 件 概率 表 〈CPT) 。 变 量 2 的 CPT 说 明 条 件 分 布 P(2 
/ Parents (2)); 其 中 ，Parents (DH) 是 2 的 双亲 。 图 7.7(b) 给 出 了 ZLungCancer 的 CPT。 对 于 其 双亲 
值 的 每 个 可 能 组 合 ， 表 中 给 出 了 LungCancer 的 每 个 值 的 条 件 概 率 。 例 如 ， 由 左上 角 和 右 下 角 ， 我 
们 分 别 看 到 
Pl(LungCancer = “yes” / FamilyHistory = “yes”, Smoker = “yes”) = 0.8 
Pl(LungCancer = “no” / FamilyHistory = “no”, Smoker = “no”) = 0.9 


对 应 于 属性 或 变量 Z1,.…, 2 的 任意 元 组 (zi zw ) 的 联合 概率 由 下 式 计 算 : 
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P(zi.s 2 -TTec | parents(Z.,)) 


i=1 


其 中 ，P(z, | parents(2Z,)) 的 值 对 应 于 和 Z 的 CP7 中 的 表 目 。 


FarmlyHostory 





FH,S  FH,-S ~FH,S ~FH,~S 











Positrve 芝 Ray 


图 7.7 (a) 一 个 简单 的 贝 叶 斯 信念 网 络 (b) 变量 LungCance (LC) 值 
的 条 件 概率 表 ， 给 出 其 双亲 结 点 fami7yHistory 和 Smoke 的 每 个 可 
能 值 的 组 合 的 条 件 概率 


ta) 


































































































网 络 结 点 可 以 选 作 “输出 ” 结 点 ， 对 应 于 类 标号 属性 。 可 以 有 多 个 输出 结 上 点。 学习 推 理 算法 可 
以 用 于 网 络 。 分 类 过 程 不 是 返回 单个 类 标号 ， 而 是 返回 类 标号 属性 的 概率 分 布 ， 即 ， 预 测 每 个 类 的 












































7.4.4 ”训练 贝 叶 斯 信念 网 络 

















“ 贝 叶 斯 信念 网 络 如 何 学 习 ? ”在 学 习 或 训练 信念 网 络 时 ， 许 多 情况 都 是 可 能 的 。 网 络 结构 可 
能 预先 给 定 ， 或 由 数据 导出 。 网 络 变量 可 能 是 可 见 的 ， 或 隐藏 在 所 有 或 某 些 训练 样本 中 。 隐 藏 数据 
的 情况 也 称 为 遗漏 值 或 不 完全 数据 。 

如 果 网 络 结构 已 知 并 且 变量 是 可 见 的 ， 训 练 网 络 是 直接 了 当 的 。 该 过 程 由 计算 CPT 项 组 成 ， 与 
朴素 贝 叶 斯 分 类 涉及 的 计算 概率 类 似 。 

当 网 络 结构 给 定 ， 而 某 些 变量 是 隐藏 的 时 ， 则 可 使 用 梯度 下 降 方法 训练 信念 网 络 。 目 标 是 学 习 
CPT 项 的 值 。 设 8 是 s 个 训练 样本 了 五, 厂 , ... ,五 的 集合 ，wix 是 具有 双亲 Ui= wi 的 变量 了 =yyy 的 CPT 
项 。 例如， 如 果 wx 是 图 7.7(b) 左 上 角 的 CPT 项 ， 则 玉 是 LungCancer; ;是 其 值 “yes”; WW 列 出 开 
的 双亲 结 点 {Fami7yHistory，Smoker} ; 而 uxt 列 出 双亲 结 点 的 值 {*yes”，“yes”}。wix 可 以 看 作 权 ， 
类 似 于 神经 网 络 (7.5 节 ) 中 隐藏 单元 的 权 。 权 的 集合 记 作 w。 这 些 权 被 初始 化 为 随机 概率 值 。 梯 
度 下 降 策略 采用 贪心 仆 山 法 。 在 每 次 迭代 中 ， 修 改 这 些 权 ， 并 最 终 收 全 到 一 个 局 部 最 优 解 。 







































































































































































































































































基于 w 的 每 个 可 能 设置 都 等 可 能 的 假定 ， 该 方法 搜索 能 最 好 地 对 数据 建 模 win 值 。 目 标 是 最 大 


























化 p,(S)=[]_P,(X4)。 这 通过 按 1n P, G ) 梯 度 来 做 ， 使 得 问题 更 简单 。 给 定 网 络 结构 和 wi 的 
初 值 ， 该 算法 按 以 下 步骤 处 理 : 
























































































































































































































































1. 计算 梯度 : 对 每 个 i ££， 计算 
OnP,(S)_ Sy PO = yy Ui = unl Xa) 
Owix dl Wijk 
(7. 10) 
(7. 10) 式 右 端的 概率 要 对 5 中 的 每 个 样本 五 计算 。 为 简洁 计 ， 我 们 简单 地 称 此 概率 为 p。 
当 和 表示 的 变量 对 某 个 五 是 隐藏 的 时 , 则 对 应 的 概率 p 可 以 使 用 贝 叶 斯 网 络 推理 的 标准 算 
法 (如, 商用 数值 软件 包 Hugin 提供 的 那些 (http:/Arrrm. hugin. op )， 由 样本 的 观察 变量 计算 。 
2.， 沿 梯度 方向 前 进 一 小 步 : 用 下 式 更 新 权 值 
We (7.11) 
Wijk 
日 志 示 止 芭 拘 同 司 将 Oln P,(9) 证 管 和 沪 可 这 币 没 轩 号 一 人 小 淳 类 
其 中 , 7 是 表示 步 长 的 学 习 率 , 而 和 (7.10) 式 计算 。 学 习 率 被 设置 为 一 个 小 常数 。 
ijk 
3.， 重新 规格 化 权 值 ， 由 于 权 值 wx 是 概率 值 ， 它 们 必须 在 0.0 和 1.0 之 间 ， 并 且 对 于 所 有 的 zh 
2 wix 必须 等 于 1。 在 权 值 被 (7. 11) 式 更 新 后 ， 可 以 对 它们 重新 规格 化 来 保证 这 一 条 件 。 
有 一 些 算法 ， 由 给 定 可 观察 变量 的 训练 数据 学 习 网 络 结构 。 该 问题 是 离散 优化 问题 。 请 参阅 本 
章 的 文献 注释 。 
7.5 后 向 传播 分 类 














“什么 是 后 向 传播 ? ”后 向 传播 是 一 种 神经 网 络 学 习 算 法 。 神 经 网 络 最 早 是 由 心理 学 家 和 神经 






























































学 家 提出 的 ， 旨 在 寻求 开发 和 测试 神经 的 计算 模拟 。 粗 略 地 说 ， 神 经 网 络 是 一 组 连接 的 输入 /输出 






































元 ， 其 中 每 个 连接 都 与 一 个 权 相 相 联 。 在 学 习 阶段 ， 通 过 调整 神经 网 络 的 权 ， 使 得 能 够 预测 输入 









































样本 的 正确 类 标号 来 学 习 。 由 于 单元 之 间 的 连接 ， 神 经 网 络 学 习 又 称 连接 者 学 习 。 
































神经 网 络 需要 很 长 的 训练 时 间 , 因而 对 于 有 足够 长 训练 时 间 的 应 用 更 合适 。 它 需要 大 量 的 参数 ， 

















这 些 通 常 主 要 靠 经 验 确 定 ， 如 网 络 拓 扑 或 “结构 ”。 由 于 人 们 很 难 解释 蕴涵 在 学 习 权 之 中 的 符号 含 
义 , 神经 网 络 常常 因 其 可 解释 性 差 而 受到 批评 。 这些 特 点 使 得 神经 网 络 在 数据 挖掘 的 初期 并 不 看 好 。 
























































然而 , 神经 网 络 的 优点 包括 其 对 噪音 数据 的 高 承受 能 力 ,以 及 它 对 未 经 训练 的 数据 的 分 类 能 力 。 


















































此 外 ， 最 近 已 提出 了 一 些 由 训练 过 的 神经 网 络 提取 规则 的 算法 。 这 些 因素 推动 了 神经 网 络 在 数据 挖 





掘 分 类 方面 的 应 用 。 
























































最 流行 的 神经 网 络 算法 是 80 年 代 提出 的 后 向 传播 算法 。 在 7. 5. 1 小 节 , 你 将 学 习 多 层 前 馈 网 络 ， 





























后 向 传播 算法 在 这 种 类 型 的 网 络 上 运行 。7. 5. 2 小 节 讨 论 定义 网 络 拓扑 。 后 向 传播 算法 在 7. 5.3 小 
节 介 绍 。 由 训练 的 神经 网 络 提取 规则 在 7. 5. 4 小 节 讨 论 。 


















































7.5.1 多 路 前 馈 神 经 网 络 




















后 向 传播 算法 在 多 路 前 馈 神 经 网 络 上 学 习 。 这 种 神经 网 络 的 一 个 例子 如 图 7. 8 所 示 。 输 入 对 应 














于 对 每 个 训练 样本 度量 的 属性 。 输 入 同时 提供 给 称 作 输入 层 的 单元 层 。 这 些 单元 的 加 权 输 出 依次 同 
时 地 提供 给 称 作 隐藏 层 的 “类 神经 元 的 ”第 二 层 ;， 该 隐藏 层 的 加 权 输 出 可 以 输入 到 另 一 个 隐藏 层 ; 
如 此 下 去 。 隐 藏 层 的 数量 是 任意 的 ， 尽 管 实 践 中 通常 上 只 用 一 层 。 最 后 一 个 隐藏 层 的 加 权 输 出 作为 构 


成 输出 层 的 单元 的 输入 。 输 出 层 发 布 给 定 样 本 的 网 络 预测 。 





























































































































隐藏 层 和 输出 层 的 单元 ， 有 时 称 作 neurodes( 源 于 
两 层 和 输出 单元 。 因 


多 层 神经 
络 称 作 三 
单元 。 网 

















7.5.2 定 


图 7.8 











个 多 层 前 馈 











经 网 络 。 训 练 村 





每 层 之 间 存 在 加 
的 权 

















网 络 具有 


P29 
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本 不 = {xi ,x 














权 连 接 ; 














] 此 ， 我 们 称 之 为 两 层 ? 
神经 网 络 ， 如 此 等 等 。 网 络 是 前 馈 的 ， 如 果 其 权 都 不 


og 


而 馈 入 输入 层 。 











中 ，wj 表 示 由 某 层 的 单元 J 到 前 











AAA 


付 








络 是 全 连接 的 ， 如 


个 





义 网 络 拓扑 


每 个 单元 都 疝 下 
给 定 足 够 多 的 隐藏 单 元 ， 线 性 阔 值 函数 的 多 层 前 馈 神经 网 络 可 以 允 近 任何 








经 网 络 。 类 似 地 ， 包 含 





层 的 每 个 单 

















层 的 音 








EI 


号 生物 学 ) ， 或 输出 单元 。 图 7. 8 所 示 的 








丙 个 隐藏 





层 的 网 














回 送 到 输入 单元 ， 或 
元 提供 输入 。 








函数 。 











前 一 层 的 输出 





“如 何 设计 神经 网 络 拓扑 ? ”在 开始 训练 之 前 ， 用 户 必 须 说 明 输入 层 的 单元 数 、 隐 藏 层 数 〈 如 




























































































































































































































































































并 可 


重新 编码 ， 使 得 每 个 域 值 一 个 输入 单元 。 例 如 ， 如 果 属 
输入 单元 表示 4。 即 ， 我 们 可 以 用  , ,了 作为 输入 








台 忆 是 四 














啊 结 








月 已 中 0 林 





一 旦 网 络 经 过 训练 ， 并 且 其 准确 率 不 能 被 


果 多 于 一 层 ) 、 每 一 隐藏 层 的 单元 数 和 输出 层 的 单元 数 ， 以 确定 网 络 拓扑 。 

对 训练 样本 中 每 个 属性 的 值 进行 规格 化 将 有 助 于 加 快 学 习 过 程 。 通 常 ， 对 输入 值 规格 化 ， 使 得 
它们 落 入 0.0 和 1.0 之 间 。 离 散 值 属性 可 以 习 
性 4 的 定义 域 为 (aa aa 人 ， 则 可 以 分 配 三 个 
单元 。 每 个 单元 初始 化 为 0。 如 果 4 = ao， 则 五 置 为 1， 如 果 4 = al， 攻 置 1; 如 此 下 去 。 一 个 输出 
单元 可 以 用 来 表示 两 个 类 〈 值 1 代表 一 个 类 ， 而 值 0 代表 另 一 个 ) 。 如 果 多 于 两 个 类 ， 则 每 个 类 使 
一 个 输出 单元 。 

对 于 “最 好 的 ”隐藏 层 单元 数 ， 没 有 明确 的 规则 。 网 络 设计 是 一 个 实验 过 程 ， 
训练 网 络 的 准确 性 。 权 的 初 值 也 可 能 影响 结果 的 准确 性 。 
接受 ， 则 通常 用 不 同 的 网 络 拓扑 或 使 用 不 同 的 初始 权 值 ， 重 复 训 练 过 程 。 


7.5.3 后 


“后 


; 座 





向 传播 


向 传播 









































际 知道 


误差 最 小 。 这 种 修改 “后 向 ”进行 。 即 ， 由 输出 
后 向 传播 ) 。 尽 管 不 能 保证 ， 一 般 地 ， 权 将 最 终 收 伍 ， 学 习 过 程 停 





步 的 解释 如 下 : 


初始 化 权 : 网 络 的 权 被 初始 化 为 很 小 的 随机 数 《〈 例 如 ， 





A 











元 有 








每 个 样本 了 按 以 下 步 又 处 理 。 
向 前 传播 输入 : 在 这 一 步 ， 计 算 隐 藏 层 和 输出 





供给 网 络 





个 偏 


置 ， 下 面 解释 。 

















如 何 工作 ? ”后 同 传 播 通过 迭代 ] 





















































地 处 到 


户 














一 组 训练 样本 ， 将 每 个 样本 的 网 络 预测 与 实 
的 类 标号 比较 ， 进 行 学 习 。 对 于 每 个 训练 样本 ， 修 改 权 ， 使 得 网 络 预测 和 实际 类 之 间 的 均 方 











经 | 











偏 





























的 输入 层 。 注 意 ， 对 了 








然后 





， 隐 茂 
给 出 了 一 个 隐藏 层 或 输出 























层 和 输出 层 的 











每 
层 





元 


输入 层 的 单元 及 它 的 输出 等 于 它 
个 单元 的 净 输 入 用 其 输入 的 线性 组 合计 算 。 为 帮助 解释 这 
单元 。 事 实 上 ， 单 元 的 输入 是 连接 它 的 














全 


置 也 类 似 地 初始 











每 个 隐藏 层 ， 到 第 一 个 隐藏 








上 。 算 法 在 图 7.91 




















化 为 小 随机 数 。 





I-1.0 到 1.0， 或 1 


层 每 个 单元 的 净 输 入 和 





的 输入 ; 





-0.5 

















输 ! 




















Io 



































前 











层 的 单元 的 输 








一 点 ， 


层 〈 因 此 称 作 
给 出 。 每 一 

















到 0.5) 。 每 





首先 ， 训 练 样本 提 
即 ， 对 于 单元 J 0;= 立交 





图 7. 10 


出 。 为 计算 它 




















的 净 输 入 ， 连 搂 该 单元 的 每 个 输入 乘 以 其 对 应 的 权 ， 然 后 求 和 。 给 定 隐藏 层 或 输出 层 的 单元 到 
单元 j 的 净 输入 三 是 : 



































1; = ,wyO; +0; 


(7. 12) 
其 中 ，wij 是 由 上 一 层 的 单元 7 到 单元 7 的 连接 的 权 : 0; 是 上 一 层 的 单元 7 的 输出 ; 而 9; 是 单元 
J 的 偏 置 。 偏 置 充 当 闵 值 ， 用 来 改变 单元 的 活性 。 
隐藏 层 和 输出 层 的 每 个 单元 取 其 净 输 入 ,然后 将 赋 活 函数 作用 于 它 ， 如 图 7. 10 所 示 。 该 函数 用 
符号 表现 单元 代表 的 神经 元 活性 。 使 用 logistic 或 simoid 函数 。 给 定单 元 7 的 净 输 入 六 则 单元 
7 的 输出 0 用 下 式 计算 ， 
(7.13) 
1+e ， 


该 函数 又 称 挤 压 函数 ， 因 为 它 将 一 个 较 大 的 输入 值 域 映射 到 较 小 的 区 间 0 到 1。1logistic 函数 
是 非 线性 的 和 可 微 的 ， 使 得 后 向 传播 算法 可 以 对 线性 不 可 分 的 问题 建 模 。 
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算法 : 后 向 传播 。 使 用 后 向 传播 算法 的 神经 网 络 分 类 学 习 。 
输入 : 训练 样本 samp7es， 学 习 率 J/， 多 层 前 馈 网 络 network。 
输出 : 一 个 训练 的 、 对 样本 分 类 的 神经 网 络 。 

方法 : 












































1) 初始 化 network 的 权 和 偏 置 。 

2) while 终止 条 件 不 满足 { 

3) for samples 中 的 每 个 训练 样本 { 

4) // 各 前 传播 输入 

5) for 隐藏 或 输出 层 每 个 单元 7 1{ 

6) 1;=2,w;O; +10,; // 相对 于 前 一 层 i:， 计 算 单元 的 六 
输入 

7) 0;=1/(U+e“); } // 计算 单元 j 的 输出 

8) // 后 向 传播 误差 














































































































9) for 输出 层 每 个 单元 J 

10) Err; =0;(1 -0;)(T; -0;); // 计算 误差 

11) for 由 最 后 一 个 到 第 一 个 隐藏 层 ， 对 于 隐藏 层 每 个 单元 J 
12) Err; =0;(1 一 0))24Errew; // 计算 关于 下 一 个 较 高 层 和 的 误差 
13) for networ 中 每 个 权 w { 

14) Am = (ID)Err;O; ; // 权 增 值 

15) w=w;t+Aw; ; }// 权 更 新 

16) for networ 中 每 个 偏差 60， [{ 

17) A0;=(DErr,; // 偏差 增值 

18) 0;=0;+A0;; } // 偏差 更 新 

19) 月 








图 7.9 后 向 传播 算法 











输 加 梭 和 








图 7. 10 ”一 个 隐藏 或 输出 单元 j: Jj 的 输入 是 来 自前 一 层 的 输出 。 这 些 与 
对 应 的 权 相 乘 ， 以 形成 加 权 和 。 加 权 和 加 到 与 单元 7 相 联 的 偏 置 
上 。 一 个 非 线性 的 赋 活 函数 用 于 净 输 入 
后 向 传播 误差 : 通过 更 新 权 和 反映 网 络 预测 误差 的 偏 置 ， 向 后 传播 误差 。 对 于 输出 层 单元 沁 
误差 xr; 用 下 式 计算 



























































Err;=0;(1 -OT;—0;)) 

(7. 14) 

其 中 ，0; 是 单元 /的 实际 输出 ， 而 到 是 7 基于 给 定 训 练 样本 的 已 知 类 标号 的 真正 输出 。 注 意 ， 

0; (1- 0) 是 logistic 函数 的 导数 。 
为 计算 隐藏 层 单 元 的 误差 ， 考 虑 下 一 层 中 连接 7 的 单元 的 误差 加 权 和 。 隐 藏 层 单元 > 了 的 误差 












































Et 
是 
Err; =Oid- 0 


(7. 15) 
































其 中 ，mwij 是 由 下 一 较 高 层 中 单元 《到 单元 7 的 连接 权 ， 而 frr 是 单元 的 误差 。 
更 新 权 和 偏差 ， 以 反映 传播 的 误差 。 权 由 下 式 更 新 ， 其 中 ，4w 是 权 wj 的 改变 。 
Aw; = (DErr,O; 
(7. 16) 
Wi = Wi + Aw; 
(7. 17) 
“ (7.16) 式 中 的 “7” 是 什么 ? ”变量 7 是 学 习 率 ， 通常 取 0 和 1 之 间 的 值 。 后 向 传播 使 用 梯 
度 下 降 法 搜索 权 值 的 集合 。 这 些 权 值 可 以 对 给 定 的 分 类 问题 建 模 ， 使 得 样本 的 网 络 类 预测 和 实际 的 
类 标号 距离 平方 的 平均 值 最 小 。 学 习 率 帮助 避免 陷入 判定 空间 的 局 部 最 小 〈 即 ， 权 值 看 上 去 收敛 ， 
但 不 是 最 优 解 ) ， 并 有 助 于 找到 全 局 最 小 。 如 果 学 习 率 太 小 ， 学 习 将 进行 得 很 慢 。 如 果 学 习 率 太 大 ， 
可 能 出 现在 不 适当 的 解 之 间 摆 动 。 一 个 调整 规则 是 将 学 习 率 设置 为 1/t。 其 中 ，t 是 已 对 训练 样本 
集 迭 代 的 次 数 。 
偏 置 由 下 式 更 新 。 其 中 ，A40; 是 偏 置 9, 的 改变 。 
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AOi =(DErr, 

(7. 18) 

0 =0; +AO 

(7. 19) 

注意 ， 这 里 我 们 每 处 理 一 个 样本 就 更 新 权 和 偏 置 ， 这 称 作 实 例 更 新 。 替 换 地 ， 权 和 偏 置 的 增 量 
可 以 累积 到 变量 中 ， 使 得 可 以 在 处 理 完 训练 集中 的 所 有 样本 之 后 再 更 新 权 和 偏 置 。 后 一 种 策略 称 作 










































































































































































































































































































































































































































































所 ， 而 实 


设 学 习 率 




















权 和 偏 


周期 更 新 ， 扫 描 训 练 集 的 一 次 迭代 是 一 个 周期 。 理 论 上 ， 后 向 传播 的 数学 推导 使 用 周期 更 
践 中 实例 更 新 更 常见 ， 因 为 它 通 常 产 生 更 准确 的 结果 。 
终止 条 件 。 训 练 停止 ， 如 果 
" ”前 一 周期 所 有 的 Aw; 都 太 小 ， 小 于 某 个 指定 的 阔 值 ， 或 
" 前 一 周期 未 正确 分 类 的 样本 百分比 小 于 某 个 阔 值 ， 或 
" ”超过 预先 指定 的 周期 数 。 
实践 中 ， 权 收敛 可 能 需要 数 十 万 个 周期 。 
例 7.5 通过 后 向 传播 算法 学 习 的 样本 计算 。 图 7. 11 给 出 了 一 个 多 层 前 馈 神经 网 络 。 
为 0.9。 该 网 络 的 初始 权 值 和 偏 置 值 以 及 第 BO OD 在 雪 9 
绘 遇 ; 
图 7.11 多 层 前 馈 神 经 网 络 的 一 个 例子 
表 7.3: 初始 输入 、 权 值 和 偏差 值 
0. | -0. -0. -0. -0. 
2 示 5 
给 定 第 一 个 训练 样本 部 该 例 展示 后 癌 传 播 计算 。 首 先 将 样本 提供 给 网 络 ， 计 算 每 个 单元 的 净 
输入 和 输出 。 这 些 值 在 表 7. 4 中 。 计 算 每 个 单元 的 误差 ， 并 后 向 传播 。 误 差 值 在 表 7. 5 中 ， 
置 的 更 新 在 表 7.6 中 。 口 











表 7.4: 净 输 入 和 输出 的 计算 表 






































单 净 输 入 Ij 输出 0j 
元 j 

4 0. 2+0-0. 5-0. 4 = -0.7 lt+(l+e*) = 

5 -0. 3+0+0. 2+0.2 = 0.1 0. 33 
6 (-0. 3) (0. 332)—(0. 2) (0. 525) +0 lt+(lte™’) = 

.1 = -0.105 0. 525 
1+ (l+e™ 105) 这 

0. 474 

7.5: 计算 每 个 结 点 的 误差 表 
单元 Err; 





6 (0. 474) (1-0. 474) (1-0. 474) 



























































5 0. 1311 
4 (0. 525) (1-0. 525) (0. 1311) (-0. 2) = 
-0. 0065 
(0. 332) (1-0. 332) (0. 1311) (-0. 3) = 
-0. 02087 
7. 6: 计算 权 和 偏 置 的 更 新 
权 或 新 值 
偏差 
Wa6 -0.3 + (0.9) (0.1311) (0.332) = 
Ws6 —0. 261 
Wi14 -0.2 + (0.9) (0.1311) (0.525) = 
a -0. 138 


0.2 + (0.9) (-0.0087) (1) = 0. 192 

-0.3 + (0.9) (0.0065) (1) = 
-0. 306 

0.4 + (0.9) (-0.0087) (0) = 0.4 


。 0.1+ (0.9) (-0.0065) (0) = 0.1 
网 -0.5 + (0.9) (-0.0087) (1) = 


-0. 508 
0.2+ (0.9) (-0.0065) (1) = 0. 194 
0. 1+(0.9) (0. 1311) = 0.218 
0. 2+(0. 9) (-0. 0065) = 0. 194 
-0. 4+(0. 9) (-0. 0087) = -0. 408 


业已 提出 了 一 些 后 向 传播 算法 的 变形 和 替代 ， 用 于 神经 网 络 分 类 。 这 些 可 能 涉及 网 络 拓 朴 和 学 
习 率 或 其 它 参 数 的 动态 调整 ， 或 使 用 不 同 的 误差 函数 。 















































7.5.4 ”后 向 传播 和 可 解释 性 









































“如 何 “ 理 解 ” 后 向 传播 神经 网 络 的 学 习 结 果 ? ”神经 网 络 的 主要 缺点 是 其 知识 的 表示 。 用 加 
权 链 连接 单元 的 网 络 表示 的 知识 很 难 被 人 理解 。 这 激发 了 提取 隐藏 在 训练 的 神经 网 络 中 的 知识 ， 并 
象征 地 解释 这 些 知 识 的 研究 。 方 法 包括 由 网 络 提 取 规 则 和 灵敏 度 分 析 。 

业已 提出 了 各 种 规则 提取 算法 。 通 常 ， 这 些 方法 对 训练 给 定神 经 网 络 所 用 的 过 程 、 网 络 的 拓 朴 
结构 和 输入 值 的 离散 化 加 以 限制 。 

全 连接 的 网 络 很 难处 理 。 然 而 ， 由 神经 网 络 提取 规则 的 第 一 步 通 常 是 网 络 前 枝 。 该 步 通过 前 去 
对 训练 网 络 影响 最 小 的 加 权 链 简化 网 络 结构 。 例 如 ， 如 果 删 除 一 个 加 权 链 不 导致 网 络 的 分 类 精确 度 
下 降 ， 则 应 当 删 除 该 加 权 链 。 

一 旦 训练 网 络 已 被 剪 枝 ， 一 些 方法 将 进行 链 、 单 元 或 活跃 值 的 聚 类 。 例 如 ， 在 一 种 方法 中 ， 使 
用 聚 类 发 现 给 定 训练 的 两 层 神经 网 络 中 每 个 隐藏 单元 的 共同 活跃 值 的 集合 (图 7.12) 。 分 析 每 个 隐 
藏 单 元 的 这 些 活 跃 值 。 导 出 涉及 这 些 活跃 值 与 对 应 输出 单元 值 组 合 的 规则 。 类 似 地 ， 研 究 输入 值 和 
活跃 值 的 集合 ， 导 出 描述 输入 和 隐藏 单元 层 联 系 的 规则 。 最 后 ， 两 个 规则 的 集合 可 以 结合 在 一 起 ， 
形成 IF-THEN 规则 。 其 它 算 法 可 能 导出 其 它 形式 的 规则 ， 包 括 M-of-N 规则 其中， 为 应 用 规则 的 
后 件 ， 规 则 前 件 中 给 定 的 N 个 条 件 中 的 M 个 条 件 必须 为 真 )》 ， 具 有 M-of-N 测试 的 判定 树 、 模 糊 规 
则 和 有 穷 自动 机 。 

灵敏 度 分 析 用 于 评估 一 个 给 定 的 输入 变量 对 网 络 输出 的 有 影响。 改变 该 变量 的 输入 ， 而 其 它 输 入 
变量 为 某 固定 值 。 其 间 ， 监 测 网 络 输出 的 改变 。 由 这 种 形式 的 分 析 得 到 的 知识 是 形 如 “IF 了 减少 
5% THEN 了 增加 8%” 的 规则 。 









































































































































































































































































































































































































































































































































































































































识别 每 个 隐藏 结 点 fH 的 共同 活跃 值 集合 : 
Hi: (~-1,0,1) 
H2: (0,1) 
Hs: (~1,0.24,1) 
导出 与 输出 结 点 0; 的 共同 活跃 值 相关 的 规则 : 
IF (Hs= 0 AND H;= -1) OR 
(了 = -1 AND Hs= 1 AND H;= -1) OR 
(Hi= -1 AND H:= 0 AND H;= 0. 24) 
THEN 0,= 1, 02= 0 


ELSE 01= 0， 02= 1 

















导出 与 输入 I 到 输出 结 点 0 相关 的 规则 : 
IF (TI=0AND I+= 0) THEN Hs= 0 

IF (114= 1 AND I6= 1) THEN Hs= -1 
IF (Is= 0) THEN Hs= -1 





得 到 关于 输入 和 输出 类 的 规则 : 


IF (Is= 0 AND II=0 
THEN class=1 


IF (I:= 0 AND II=0 


AND L1= 1 AND Is= 1) 


AND Is= 0) 


THEN class = 1 











图 7.12 


规则 可 以 由 训练 

















经 网 络 提取 





7.6 ”基于 源 于 关联 规则 挖掘 概念 的 分 类 


高 度 活跃 的 领域 。 本 书 的 第 6 章 介 


“ 源 于 关联 规则 挖掘 的 思想 可 以 用 于 分 类 吗 ? ”关联 规则 挖掘 是 数据 挖掘 和 
了 许多 关联 规则 挖掘 算法 。 最 近 ， 数 据 挖 掘 技术 业已 将 关联 规 













































































究 的 


个 重要 的 、 











则 挖掘 用 于 分 类 问题 。 本 节 ， 我 们 按 历 史 次 序 研 究 三 种 方法 。 前 两 种 方法 ，ARCS 和 关联 分 类 使 用 关 


联 规则 分 类 。 第 三 种 方法 CAEP 挖掘 
第 一 种 方法 基于 肾 类 挖 拥 
小 节 ) 挖掘 形 如 Au 和 Au 一 Au 的 关联 规则 ;其 
定 ) ， 而 As: 为 给 定 训练 数据 的 分 类 属性 指定 
格 ， 搜 索 规 则 的 矩形 聚 类 。 用 这 种 办 法 ， 出 现在 一 个 规则 聚 类 内 的 量化 属性 的 相 邻 区 间 
其 准确 率 可 与 C4. 5 媲美 。 一 般 地 ， 当 数据 中 存 


间 动 态 地 和 
算法 扫 
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可 以 结合 。 由 ARCS 产生 的 聚 类 关联 规则 用 于 


在 








局 少 


者 时 ， 实 验 发 现 ARCS 比 C4.5 稍 











关联 规则 , 然后 使 月 











“显露 模式 ”， 它 考虑 挖 所 关联 规则 使 用 的 支持 度 概 念 。 





规则 进行 分 类 。ARCS 或 关联 规 贝 


】 聚 类 系统 (6. 4. 3 














轧 ， 
局 ?9 Auuantl Auuanta 是 在 


E 量 化 属性 





区 间 上 的 测试 (区 











个 类 标号 。 








分 类 ， 














微 精确 一 点 。ARCS 的 准确 怕 




















关联 规则 画 在 2-D 顶 格 上 。 








与 离散 化 程度 有 关 。 从 可 规模 性 

















来 说 ， 不 论 数据 库 多 大 ，ARCS 需要 的 存储 容量 为 常数 。 相 比 之 下 ，C4.5 具有 指数 运行 时 间 ， 要 求 
整个 数据 库 〈 乘 以 某 个 因子 ) 全 部 装 入 内 存 。 


























第 二 种 方法 称 作 关 联 分 类 。 它 挖掘 形 如 condset 之 了 的 规则 ;， 其 中 ，comdset 是 项 〈 或 属性 - 


值 对 ) 的 集合 ， 























的 置信 度 为 c， 


comndset， 则 选择 具有 最 高 置信 度 的 规则 作为 可 能 规则 (PR) ， 代 表 该 集合 。 








『T 了 是 类 标号 。 满 足 最 小 支持 度 的 规则 是 频繁 的 这里， 规则 具有 支持 度 s， 如 果 











给 定数 据 集中 的 样本 sh 包含 condset 并 且 属于 类 z 满足 最 小 置信 度 的 规则 是 精确 的 ， 这 里 ， 规 则 















































如 果 给 定数 据 集中 包含 condset 的 样本 oc% 属 于 类 y。 如 果 一 个 规则 项 集 具 有 相同 的 





























关联 分 类 方法 由 两 步 组 成 。 第 一 步 是 找 出 所 有 频繁 的 、 精 确 的 PR 集合 ,这 些 是 类 关联 规则 (C4P 。 
其 condset 包含 个 项 的 规则 项 称 作 大 规 则 项 。 算 法 使 用 迭代 方法 ， 类 似 于 6. 2.1 小 节 介绍 的 





Apriori 使 用 的 方法 ， 先 验 知识 用 于 裁减 规则 搜索 。 第 二 步 使 用 一 种 局 发 式 方法 构造 分 类 。 这 里 ， 




























































































发 现 的 规则 根据 支持 度 和 置信 度 按 递减 的 优先 次 序 组 织 。 算 法 可 能 需要 多 次 扫描 数据 集 ， 这 依赖 于 
找到 的 最 长 规则 的 长 度 。 对 一 个 新 的 样本 进行 分 类 时 ， 满 足 该 样本 的 第 一 个 规则 用 于 对 它 分 类 。 分 
类 法 也 包含 省 缺 规则 ， 它 具有 最 低 的 优先 次 序 ， 用 来 为 不 被 分 类 法 中 其 它 规则 满足 的 新 样本 指定 一 
个 省 缺 的 类 。 一 般 地 ， 经 验 表 明 ， 上 述 关 联 分 类 方法 在 许多 数据 集 上 比 C4. 5 更 精确 。 以 上 两 步 都 














具有 线性 可 规模 性 。 

















































































































第 三 种 方法 CAEP 〈 通 过 聚集 显露 模式 分 类 ) 使 用 项 集 支 持 度 挖掘 显露 模式 〈EP) ， 而 印 用 于 
构造 分 类 。 粗 略 地 说 ，EP 是 一 个 项 集 〈 项 的 集合 ) ， 其 支持 度 由 一 个 类 到 另 一 个 类 显著 增加 。 两 个 


支持 度 的 比 称 作 EP 的 增长 率 。 例 如 ， 假 定 我 们 有 顾客 数据 集 ， 包 含 关 burs computer =“yes" 或 





























C 和 buys computer = “170' 或 C。 项 集 {age =“<=30”，students 二 po 人 j 是 一 个 典型 的 EP， 其 支持 


度 由 在 C 中 的 














0. 2% 增 长 到 在 G 中 的 57. 6%， 增 长 率 一 = 288 。 注 意 ， 一 个 项 或 者 是 分 类 属性 上 
年 O 





























的 简单 相等 测试 ， 或 者 是 检查 数值 属性 是 否 在 某 个 区 间 的 测试 。 每 个 EP 是 一 个 多 属性 上 的 测试 ， 
































的 EP 


























并 且 可 能 在 区 分 一 个 类 的 实例 与 男 一 个 类 的 实例 方面 非常 强 。 例 如 ， 如 果 一 个 新 样本 了 包含 在 上 面 
， 我 们 可 以 说 了 属于 CG 的 几率 为 99. 6%。 一 般 地 ，EP 的 区 分 能 力 大 约 正比 于 它 的 增长 率 和 









































它 在 目标 类 的 支持 度 。 


“CAEP 如 


EP; 这 里 ， 增 长 率 按 所 有 的 非 C 类 样本 的 集合 对 所 有 的 C 类 样本 目标 集合 来 计算 。“ 基 于 边界 ”的 




















可 使 用 EP 建立 分 类 法 ? ”对 于 每 个 类 C，CAEP 找 出 满足 给 定 支持 度 和 增长 率 阔 值 的 














算法 可 以 用 于 计算 。 在 对 一 个 新 样本 工分 类 时 ， 对 于 每 个 类 C， 对 出 现在 了 中 的 类 C 的 EP 的 区 分 能 














力 聚 集 ， 得 到 C 的 得 分 ， 然 后 对 得 分 规格 化 。 具 有 最 大 规格 化 得 分 的 类 决定 了 的 类 标号 。 


业已 发 现 ， 















































在 许多 数据 集 上 ，CAEP 比 C4.5 和 基于 关联 的 分 类 更 精确 。 它 在 主要 感 兴趣 的 类 占 

















少数 的 数据 集 上 也 运行 良好 。 它 在 数据 量 和 维 数 上 都 是 可 规模 化 的 。 一 种 蔡 代 的 分 类 法 称 作 JEP 分 















































类 法 ， 基 于 跳跃 显露 模式 〈JEP) 提出 。JEP 是 一 种 特殊 类 型 的 号 ， 定 义 为 这 样 的 项 集 ， 其 支持 度 








由 在 一 个 数据 集中 的 0 陡峭 地 增长 到 另 一 个 数据 集中 的 非 0。 这 两 种 分 类 法 被 认为 是 互补 的 。 


7.7 ”其它 分 类 方法 
































节 , 我 们 给 出 一 些 其 它 分 类 方法 的 简略 介绍 。 这 些 方法 包括 太 最 临近 分 类 、 基 于 案例 的 推理 、 
遗传 算法 、 粗 糙 集 和 模糊 集 方法 。 一 般 地 说 ， 与 本 章 前 面 介绍 的 方法 相 比 ， 这 些 方法 在 商品 化 的 
据 挖 据 系 统 中 较 少 用 于 分 类 。 例 如 ， 最 临近 分 类 存储 所 有 样本 ， 当 由 非常 大 的 数据 集 学 习 时 ， 这 
能 带 来 困难 。 此 外 ， 基 于 案例 的 推理 、 遗 传 算法 和 粗粮 集 分 类 还 在 原型 阶段 。 然 而 ， 这 些 方法 






























































康 到 洋 


















































流行 ， 因 此 我 们 把 它们 包含 在 这 里 。 





7.7.1 大 -最 临近 分 类 








最 临近 分 类 基于 类 比 学 习 。 训 练 样本 用 n 维 数值 属性 描述 。 每 个 样本 代表 了 维 空间 的 一 个 点 。 


这 样 ， 所 有 的 训练 样本 都 存放 在 z 维 模式 空间 中 。 给 定 一 个 未 知 样本 ， 最 临近 分 类 法 搜索 模式 空 







































































间 ， 找 出 最 接近 未 知 样本 的 个 训练 样本 。 这 个 训练 样本 是 未 知 样本 的 个 “近邻 ”。“ 临 近 性 ” 

























































































欢 几 里 德 距离 定义 。 其 中 ， 两 个 点 了 = x ,AX2 

离 是 ; 
(7. 20) 

未 知 样本 被 分 配 到 个 最 临近 者 中 最 公共 的 类 。 当 k= 1 时， 未知 样本 被 指定 到 模式 空间 中 与 
之 最 临近 的 训练 样本 的 类 。 

最 临近 分 类 是 基于 要 求 的 或 懒散 的 学 习 法 ; 即 ， 它 存放 所 有 的 训练 样本 ， 并 且 直 到 新 的 《未 标 
记 的 ) 样本 需要 分 类 是 才 建 立 分 类 。 这 与 诸如 判定 树 归纳 和 后 癌 传播 这 样 的 急切 学 习 法 形成 鲜明 对 
比 ， 后 者 在 接受 待 分 类 的 新 样本 之 前 构造 一 个 一 般 模 型 。 当 与 给 定 的 无 标号 样本 比较 的 可 能 的 临近 








者 《〈 即 ， 存 放 的 ? 
效 的 索引 技术 。 正 妇 
计算 都 推迟 到 那 时 。 
存在 许多 不 相关 属性 

最 临近 分 类 也 可 以 用 了 
























































1 练 样本 ) 数量 很 大 时 ， 
上 所 预料 的 ， 
与 判定 树 归纳 和 后 向 传 揪 
时 ， 这 可 
预测 。 








懒散 学 习 法 可 能 招致 很 高 的 计算 开销 。 这 样 ， 它 们 需要 有 
懒散 学 习 法 在 训练 时 比 急切 学 习 法 快 ， 但 在 分 类 时 慢 ， 因 为 所 有 的 
不 同 ， 最 临近 分 类 对 每 个 属性 指定 相同 的 权 。 当 数据 






































人 台 已 


能 导致 混淆 。 
即 ， 返 回 给 





\> 


在 此 情况 下 ， 分 类 返回 








定 的 未 知 样本 实数 值 预测 。 未 




















知 样本 的 £ 个 最 临近 者 实数 值 





标号 的 平均 值 。 














7.7.2 ”基于 案例 的 推理 


基于 案例 的 推理 (CBR) 
点 存放 ，CBR 存放 的 样本 或 




















样本 作为 欧 氏 空间 的 


分 类 法 是 基于 要 求 的 。 不 象 最 临近 分 类 法 将 训 乡 
括 诸 如 顾客 服务 台 问 题 


“案例 ”是 复杂 的 符号 描述 。CBR 的 商务 应 用 包 
在 诸如 工程 和 法 律 人 

































































求解 ; 




















那里 ， 案 例 描述 产品 有 关 的 诊断 问题 。CBR 还 被 


域 ， 那 里 ， 案 例 分 别 





























是 技术 设 
当 给 定 


计 和 合法 规则 。 
一 个 待 分 类 的 





找到 一 
于 新 案例 成 分 的 训练 案例 。 


新 案例 时 ， 基 于 案例 的 推理 
个 ， 则 返回 附 在 该 案例 
概念 上 记 




















首先 检查 是 否 存 在 一 个 同样 的 训练 案例 。 如 果 
的 案例 ， 则 基于 案例 的 推理 将 搜索 具有 类 似 
图 描绘 


， 这 些 训练 案例 可 以 视 为 新 案例 的 邻接 者 。 如 果 案 例 用 图 描绘 ， 















































上 的 解 。 如 果 找 不 到 同样 






























































这 涉及 


搜索 类 似 于 新 案例 的 子 图 。 





基于 案例 的 推理 试图 组 合 临近 的 训练 案例 ， 提 出 新 案例 的 解 。 如 
































果 解 之 间 出 现 不 相 容 ， 可 能 需要 退 














略 ， 以 便 提 出 可 行 的 组 
基于 案例 的 推 


例 索 引 的 有 效 技术 和 引 


合 解 。 



































7.7.3 遗传 算法 








图 结合 


当 口 








遗传 算法 试 
































个 布尔 属性 





水 和 4 描述 ， 














时 存在 的 挑战 包括 
日 合 解 的 方法 。 


1 
组 成 的 初始 群体 。 每 个 规则 可 以 








回 搜索 其 它 解 。 基 于 案例 的 推理 可 能 使 用 背景 知识 和 问题 求解 策 





























找到 一 个 好 的 相似 矩阵 《〈 例 如 ， 为 匹配 子 图 ) ， 开 发 对 训练 





案 
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台 如 下 : 他 
单 的 僵 


一 般 地 ， 遗 传 学 习 | 建 一 个 由 随机 产 4 
用 一 个 二 进位 串 表 示 。 作 为 一 个 简单 的 例子 ， 假 定 给 定 的 训练 集 用 


J CG 和 CG。 规则 “IF 4 AND NOT 4 THEN C7 可 以 用 二 进位 


E 的 规则 
































并 |] 



































串 “100” 编 码 ; 





中 》 最 左边 











也 ， 规 则 “IF NOT 4; AND NOT 4 


的 两 个 二 进位 分 别 代表 属性 全 和 4s， 而 最 右边 的 二 进位 代表 类 。 类 似 


寺 
THEN C2 可 以 用 “001”* 编 码 。 如 果 一 个 属性 具有 K(k > 2) 个 值 























>» 





则 




















可 以 用 有 个 二 进位 对 该 属性 的 














秆 编码 。 类 可 以 月 








型 





成 


预 





算 ; 





新 的 规则 对 。 
由 先前 的 规 贝 
指定 的 适合 度 阅 
遗传 算法 易于 
法 的 适合 度 。 





| 群体 产生 前 
值 。 























月 
7 























民 据 适 者 生存 的 原则 ， 形 成 由 当 
地 ， 规则 的 适合 度 用 它 对 训练 样本 集 的 分 类 准确 率 1 
子女 通过 使 用 诸如 交叉 和 变异 等 
在 变异 操作 中 ， 规 则 串 ， 
革 的 规则 群体 的 过 程 缚 





前 群体 中 最 适合 的 } 


日 类 似 的 形式 编码 。 
纲 则 组 成 























遗传 操作 来 创建 。 





评估 。 





新 的 群体 ， 


以 及 这 些 规则 的 














在 交叉 操作 中 ， 











随机 选择 的 位 被 反 转 。 





开行， 并 且 业 已 用 于 分 类 和 其 它 优化 问题 。 


类 续 ， 直到 

















群体 P“ 进 化 ”， 





在 数据 挖掘 ， 


来 自 规则 对 的 子 串 





忆 中 的 每 个 规则 满 





能 用 于 记 





它们 可 





E 估 


子女 。 


交换 ， 形 











7.7.4 粗糙 集 方法 














粗粮 集 理论 可 以 用 于 分 类 ， 发 现 不 准确 数据 或 噪音 数据 内 在 的 结构 联系 。 它 用 于 离散 值 属性 。 
因此 ， 连 续 值 属性 必须 在 处 理 前 离散 化 。 
粗粮 集 理论 基于 给 定 训练 数据 内 部 的 等 价 类 的 建立 。 形成 等 价 类 的 所 有 数据 样本 是 不 加 区 分 的 。 
即 ， 对 于 描述 数据 的 属性 ， 这 些 样本 是 等 价 的 。 给 定 现 实 世 界 数据 ， 通 和 常 有 些 类 不 能 被 可 用 的 属性 
区 分 。 粗 糙 集 可 以 用 来 近似 或 “粗略 地 ”定义 这 种 类 。 给 定 类 C 的 粗糙 集 定 义 用 两 个 集合 近似 : C 
的 下 近似 和 C 的 上 近似 。C 的 下 近似 由 一 些 这 样 的 数据 样本 组 成 ， 根 据 关于 属性 的 知识 ， 它 们 毫 无 
疑问 属于 CC 的 上 近似 由 所 有 这 样 的 样本 组 成 , 根据 关于 属性 的 知识 , 它们 不 可 能 被 认为 不 属于 C。 
类 C 的 下 近似 和 上 近似 如 图 7. 13 所 示 。 其 中 ， 每 个 矩形 区 域 代表 一 个 等 价 类 。 判 定 规则 可 以 对 每 
个 类 产生 。 通 常 ， 使 用 判定 表 表 示 这 些 规则 。 
粗糙 集 也 可 以 用 于 特征 归 约 〈 那 里， 可 以 识别 和 删除 无 助 于 给 定 训练 数据 分 类 的 属性 ) 和 相关 
分 析 《〈 那 里 ， 根 据 分 类 任务 评估 每 个 属性 的 贡献 或 意义 ) 。 找 出 可 以 描述 给 定数 据 集中 所 有 概念 的 
最 小 属性 子 集 ( 归 约 ) 问题 是 NP- 难 处 理 的 。 然 而 ， 业 已 提出 了 一 些 降低 计算 强度 的 算法 。 例 如 ， 
有 一 种 方法 使 用 识别 矩阵 存放 每 对 数据 样本 属性 值 之 间 的 差别 。 不 是 在 整个 训练 集 上 搜索 ， 而 是 搜 
索 和 矩阵 ， 检 测 元 余 属 性 。 





























































































































































































































































































































































































































C 的 上 近世 
cc 的 下 近世 














7.13 类 C 的 样本 集 的 使 用 C 的 上 、 下 近似 集 的 粗 烽 集 近似 。 甜 
形 区 域 表 示 等 价 类 








7.7.5 ”模糊 集 方法 





























基于 规则 的 分 类 系统 有 一 个 缺点 : 对 于 连续 属性 ， 它 们 有 陡峭 的 截断 。 例 如 ， 考 虑 下 面 关 于 顾 
客 信用 申请 批准 的 规则 。 该 规则 本 质 上 是 说 : 工作 两 年 或 多 年 ， 并 且 具 有 较 高 收入 《〈 即 ， 多 于 50K) 
的 顾客 申请 将 被 批准 。 


IF (year employed Y= 2) 和 (income >= 50K) THEN credit = “approved’”. 
(7. 21) 


根据 规则 (7. 21) ， 一 个 至 少 工作 两 年 的 顾客 将 得 到 信用 卡 ， 如 果 他 的 收入 是 $50K; 但是， 如 果 
他 的 收入 是 $49K， 他 将 得 不 到 。 这 种 苛刻 的 阔 值 看 来 可 能 不 公平 。 蔡 换 地 ， 可 以 将 模糊 逻辑 引入 系 
统 ， 人 允许 定义 “模糊 ” 阔 值 或 边界 。 模 糊 逻 辑 使 用 0.0 和 1. 0 之 间 的 真 值 表示 一 个 特定 的 值 是 一 个 
给 定 类 成 员 的 程度 ， 而 不 是 用 类 或 集合 的 精确 截断 。 因 而 ， 使 用 模糊 逻辑 ， 我 们 可 以 断言 ， 在 某 种 
程度 上 ，$49K 的 收入 是 高 的 ， 尽 管 没有 $50K 的 收入 高 。 

对 于 数据 挖掘 系统 进行 分 类 ， 模 糊 逻 辑 是 有 用 的 。 它 提供 了 在 高 抽象 层 处 理 的 便利 。 一 般 地 ， 
模糊 逻辑 在 基于 规则 的 系统 中 的 使 用 涉及 : 
田 ”将 属性 值 转换 成 模糊 值 .图 7. 14 展示 如 何 将 连续 属性 jincome 的 值 映 射 到 离散 分 类 {om mediun, 
high} 上 ， 以 及 如 何 计算 模糊 成 员 关 系 或 真 值 。 通 常 ， 模 糊 逻 辑 系统 在 这 一 步 提 供 图 形 工具 ， 






















































































































































































































































































































































































» 


支持 用 户 
昌 ”对 于 给 定 的 新 样本 ,可 以 使 用 多 个 模糊 规则 。 每 个 可 用 规则 为 分 类 的 成 员 关 系 贡 献 一 票 。 通常 ， 
对 每 个 预测 分 类 的 真 值 进行 求 和 。 





















































”组 合 上 而 得 到 的 和 ,得 到 一 个 系统 返 
并 乘 以 每 个 分 类 的 平均 真 值 
模糊 逻辑 系统 已 用 了 





















































7.8 预测 








lO0K 20K 30K 40K 5S0K 60K 70K 


图 7.14 ”收入 的 模糊 值 








器 的 值 。 这 一 过 程 可 以 这 样 做 : 用 每 个 分 类 的 真 值 和 加 权 ， 
。 所 涉及 的 计算 可 能 更 复杂 ， 这 取决 于 模糊 成 员 关 系 图 的 复杂 性 。 


许多 分 类 领域 ， 包 括 健康 和 财经 。 


























收入 














“如 果 我 们 想 预 测 一 个 连续 的 值 ， 而 不 是 一 个 分 类 标号 ， 怎 么 办 ? ”连续 值 的 预测 可 以 用 回归 
统计 技术 建 模 。 例 如 ， 我 们 可 能 希望 开发 一 个 模型 ， 预 测 具 有 10 年 工作 经 验 大 学 毕业 生 的 工资 ， 
或 一 种 给 定价 格 的 新 产品 的 可 能 销售 量 。 这 类 问题 可 以 用 回归 分 析 统 计 技 术 建 模 。 许 多 问题 可 以 用 


线性 回归 人 解决， 并 且 更 多 




































































受 篇 幅 限 制 ， 我 们 不 和 








有 一 些 软件 包 解 决 回 
































的 可 以 对 变量 进行 变换 ， 使 得 非 线性 问题 可 以 转换 为 线性 的 来 加 以 处 理 。 











给 出 回归 处 理 的 全 部 细节 。 本 节 直 观 地 介绍 该 问题 。 通 过 本 节 学 习 ， 你 将 熟 
悉 线 性 回归 、 多 元 回归 和 非 线 性 回归 的 思想 ， 以 及 广义 线性 模型 。 























和 S-Plus (http://www. mathsoft. com) 。 


7.8.1 线性 和 多 元 回归 


“什么 是 线性 回归 ?” 在 线性 回归 中 ， 数 据 用 直线 建 模 。 线 怕 


























归 问 题 。 例 如 SAS (http://www. sas. co 四、SPSS (ALtp AAA spss. com) 


FE 回 归 是 最 简单 的 回归 形式 。 双 变 


量 回 归 将 一 个 随机 变量 Y《〈 称 作 响应 变量 ) 视 为 为 一 个 随机 变量 X《〈 称 为 预测 变量 ) 的 线性 函数 。 
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其 品 
pr 





(A 万 ) 了 





PF， 了 的 方差 为 常数 ，a. 和 B 是 回归 系数 ， 分 别 表示 直 线 在 Y 轴 的 
数 可 以 用 最 小 平方 法 求解 ， 这 使 得 实际 数据 与 该 直线 的 估计 之 间 误 差 最 小 。 给 定 s 个 样本 或 形 如 


(到, 乃 ) ; ..， 





(到 万 ) 的 数据 点 ， 回 


归 系 数 a 和 B 可 以 用 下 式 计算 : 


y=a+pBr 
(7. 22) 


三 断 和 直线 的 斜率 。 这 些 系 




















0 





pb 
DO -DD) 
(7. 23) 
C=y-ft 


(7. 24) 














其 中 ， 无 是 五 ， 下， .， 至 的 平均 值 ， 而 了 是 万 殊 ，..， 天 的 平均 值 。 与 其 它 复杂 的 回归 方 
法 相 比 ， 线 性 回归 常常 给 出 很 好 的 近似 。 

例 7.6 使 用 最 小 平方 法 的 线性 回归 。 表 7.7 给 出 了 一 组 年 薪 数 据 。 其 中 , 了 表示 大 学 毕业 后 工 
作 的 年 数 ， 而 了 是 对 应 的 收入 。 这 些 数 据点 如 图 7. 15 所 示 ， 暗 示 我 们 了 和 了 之 间 存 在 线性 关系 。 
我 们 用 方程 了 上 = cw + BX 表示 年 薪 和 工作 年 数 之 间 的 关系 。 

给 定 以 上 数据 ， 计 算出 T= 9.1，y = 55.4。 将 这 些 值 代入 (7. 23) 和 (7. 24) 式 ， 得 至 

p= (8-9D(30-554)+ (8-9.D)(57 -55,0)+...+(6-9.D)(83-55.4) _ 
(3—9.D)* +(8-9.D)’? +...+(16-9.D)? 

Qg =55.4—(3.7)(9.1) = 23.6 

这 样 ， 我 们 得 到 方程 了 上 = 23. 6+ 3. 5 使 用 该 方程 ， 我 们 可 以 预测 有 10 年 工作 经 验 的 大 学 毕 
业 生 的 年 薪 为 $58. 6K。 口 
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3.5 





























表 7.7: 年 薪 数据 














了 4 

工作 年 薪 (单位 : $1K) 
年 数 

3 30 

8 57 

9 64 

13 7 

3 36 

6 43 

11 59 

21 90 

1 20 

16 83 





年 薪 $1000) 





0 5 10 15 20 25 
工作 年 数 


图 7.15 例 7.6 的 表 7.7 中 数据 的 图 示 。 尽 管 这 些 点 不 在 一 条 直线 上 ， 但 
总 体 模式 表现 出 了 (工作 年 数 ) 和 了 (年薪) 间 的 线性 关系 


多 元 回归 是 线性 回归 的 扩展 ， 涉 及 多 个 预测 变量 。 响 应 变量 上 可以 是 一 个 多 维特 征 向 量 的 线性 
函数 。 基 于 两 个 预测 属性 或 变量 政和 及 的 多 元 回归 模型 的 例子 是 



























































了 7=w+LOXI+ADX， 
(7. 25) 


























最 小 平方 法 可 以 用 在 这 里 求解 w，B 和 及 。 


7.8.2 ” 非 线性 回归 


“如 何 对 不 呈现 线性 依赖 的 数据 建 模 ? 例如 ， 

















如 果 





给 定 的 响应 变量 和 预测 变量 间 的 关系 可 以 用 


























多 项 式 函 数 表示 ， 会 怎么 样 ? ”通过 在 基本 线性 模型 上 添加 多 项 式 项 ， 多 项 式 回 归 可 以 用 于 建 模 。 














通过 对 变量 进行 变换 ， 我 们 可 以 将 非 线 性 模型 转换 成 线性 的 ， 然 后 月 
例 7.7 多 项 式 回归 模型 转换 为 线性 回归 模型 。 考 虑 下 式 给 








为 将 该 方程 转换 成 线性 的 ， 我 们 定义 如 下 新 变量 : 


有 三 下 


使 用 上 面 的 定义 ， 方 程 (7. 26) 可 以 转换 成 线 虱 








可 以 用 最 小 平方 法 求解 。 口 


在 习题 7.9 中 ， 要 求 你 找 出 将 涉及 寡 函数 的 非 线性 模型 转换 成 线性 








D4 








有 些 模型 是 难处 理 的 如， 指数 项 和 的 形式 ) 





















































7.8.3 ”其 它 回 归 模 型 


诈 且 














通过 对 更 复杂 的 公式 进行 计算 ， 得 到 最 小 平方 估计 。 











日 最 小 平方 方法 求解 。 
的 三 次 多 项 式 关系 


7=w+PX+DX2 +P xX’ 





(7. 26) 


FE 形式 ， 结 果 为 Y=@+ BIXI + PB,X, + PB3X3 


回归 模型 所 需 的 变换 。 


不 能 转换 成 线性 模型 。 对 于 这 些 情况 ， 可 能 











线性 回归 用 于 对 连续 值 函数 进行 建 模 。 它 被 广泛 使 用 ， 主 要 是 由 于 它 的 简洁 性 。“ 它 也 能 用 来 

















预测 分 类 标号 吗 ? ”广义 线性 模型 提供 了 将 线性 回归 
同 ， 在 广义 线性 模型 中 ， 响 应 变量 了 的 方差 是 了 的 平 ] 





















































] 于 分 类 响 有 








的 值 的 函数 。 








永 变 量 的 理论 基础 。 与 线性 回归 不 
而 在 线性 回归 中 ， 了 的 方差 为 常 



































数 。 广 义 线性 模型 的 常见 形式 包括 对 数 回归 和 泊 松 回归 。 对 数 回归 将 某 些 事件 发 生 的 概率 看 作 预 测 











变量 集 的 线性 函数 。 计 数 数据 常常 呈现 泊 松 分 布 ， 并 通常 使 用 泊 松 回 
对 数 线 性 模型 近似 离散 的 多 维 概 率 分 布 。 可 以 使 用 它们 估计 与 数据 方 单元 相关 的 概率 值 。 例如 ， 
假定 给 定 属性 city, item year 和 sales 的 值 。 在 对 数 线性 方法 ! 









































归 建 模 。 


























， 所 有 的 属性 必须 是 分 类 的 ， 因 




















此 连续 值 属性 (如 sa7es) 必须 首先 离散 化 。 然 后 ， 使 用 该 方法 ， 根据 city 和 和 item, city A year, 
city 和 sales 的 2-D 方 体 ，jitem, year 和 sales 的 3-D 方 体 估 计 给 





元 的 概率 。 在 这 种 方法 中 ， 一 种 迭代 技术 可 以 用 来 
有 很 好 的 可 规模 性 ， 人 允许 许多 维 。 除 预测 之 外 ， 对 数 线 性 模 


全 部 也 比 基 本 方 体 占用 的 空间 少 ， 和 数据 平滑 (由 于 较 低 阶 方 体 的 






































的 选 样 变化 ) 也 是 有 用 的 。 


7.9 分 类 的 准确 性 








估计 分 类 法 的 准确 率 是 重要 的 ， 这 使 得 我 们 可 以 佑 

















经 分 类 法 处 理 的 数据 ) 正确 标号 的 准确 率 。 例 如 ， 








































































































定 属性 的 4-D 基本 方 体 中 每 个 单 
低 阶 的 数据 方 建立 高 阶 的 数据 方 。 这 种 技术 具 
型 对 于 数据 压缩 (由 于 较 低 阶 的 方 体 的 
元 估计 比较 高 阶 方 体面 临 较 少 


















































计 一 个 给 定 的 分 类 法 对 未 来 的 数据 ( 即 ， 未 
如 果 先 前 的 数据 用 于 








FF 训练 分 类 法 ， 以 便 预测 顾客 























的 购 人 行为 ， 我 们 希望 评估 该 分 类 法 预测 未 来 顾客 购物 行为 的 准确 率 。 准 确 率 估计 也 可 以 用 来 比较 














分 类 法 。 在 7.9. 1 小节， 我 们 讨论 评估 分 类 法 ; 准 胡 

















认 (k-fold cross-validation) 方 法 。7.9.2 介绍 














召 两 种 提 


率 的 技术 ， 包 皂 
高 分 类 法 准 胡 




















EE 进 (boosting) 。7. 9. 3 小 节 讨 论 关 于 分 类 法 准确 

















率 和 

















选择 的 其 它 





保持 (holdout) 和 大 折 交叉 确 









































率 的 策略 : 装 袋 (bagging) 和 





问题 。 


7.9.1 评估 分 类 法 的 准确 率 























估 分 类 法 准确 率 的 技术 。 


在 保持 方法 中 ， 给 定数 据 随 机 地 划分 成 两 个 独立 的 集 





于 学 习 算 法 《或 模型 ) 对 数据 的 过 分 特 化 ， 使 有 
错误 地 导致 过 于 乐观 的 估计 。 保 持 和 大 折 交叉 确 








数据 分 配 到 训练 集 ， 其 余 三 分 之 














(图 7.16) 。 评 估 是 保守 的 ， 因 
的 一 种 变形 ， 它 将 保持 方法 重复 《次 。 总 体 准 确 





数据 























大 致 相同 。 

















日 训练 数据 得 到 分 类 法 ， 然 后 评估 分 类 法 可 能 



































训练 集 和 测试 集 。 





于 给 定数 据 随机 选 样 划 分 的 、 常 用 的 评 



































通常 ， 三 分 之 二 的 

















分 配 到 测试 集 。 使 

















训练 集 导 出 分 类 法 ， 其 准 














确 率 用 测试 集 评估 

















为 只 有 一 部 分 初始 数据 用 于 导 晶 


























在 太 折 交叉 确认 中 ， 初 试 数据 被 划分 成 个 互 
大 小 大 致 相等 。 训 练 和 测试 进行 上 次 。 在 第 了 工 次 迭 








法 。 即 ， 第 一 次 迭代 的 分 类 法 在 子 集 5;,...， 
集 9 3 ，。。。) Sk 上 训练 ， 而 在 史上 测试 ; 如 此 下 去 。 准确 
数据 中 的 样本 总 数 。 在 分 层 交 叉 确 认 中 ， 折 被 分 层 ， 使 得 每 个 折 











评估 分 类 法 准确 率 的 




















的 选 样 ， 选 取 给 定 的 训练 实例 ， 后 
调整 的 10- 折 交叉 确认 ， 因 为 它 具 有 相对 低 的 偏 置 和 方差 。 
使 用 这 些 技术 评估 分 类 法 的 准确 率 增加 了 总 体 运行 时 间 ， 但 对 于 
































用 的 。 


7.9.2 ”提高 分 类 法 的 准确 率 
































图 7. 17: 用 保持 方法 评估 分 类 法 














的 分 类 法 。 随 机 子 选 样 是 保持 方法 
率 估计 取 每 次 迭代 准确 率 的 平均 值 。 


FT oz 
攻 率 

























































































者 是 £- 折 交叉 确 


















































或 “ 折 ”5 9， 
性 ， 其 余 的 子 
和 在 $$ 上 测试 ， 第 二 次 迭代 的 分 类 法 在 子 
率 估 计 是 人 次 迭代 了 
Ph 样本 的 类 分 布 与 在 初始 数据 中 的 








》 














...,， 5x， 每 个 折 的 
集 都 用 于 训练 分 类 











确 分 类 数 除 以 初始 


它 方法 包括 解 靴 带 (bootstrapping) 和 留 一 。 前 者 使 用 一 致 的 、 带 放 回 
里 《为 初始 样本 数 s。 一 般 地 ， 建 议 使 用 














1 多 个 分 类 法 中 选择 仍然 是 有 





在 前 一 小 节 ， 我 们 研究 了 评估 分 类 法 准确 率 的 方法 。 在 7. 3. 2 小 节 ， 我 们 看 到 剪 村 如 何 用 于 判 


定 树 归 纳 ， 帮 助 提高 结果 判定 树 的 准确 率 。 存 如 
答案 是 肯定 的 。 装 袋 〈 或 解放 带 聚 集 ) 和 
习 得 到 的 分 类 法 4, CQ, .， 
“这 些 方法 如 何 工 作 ? “假定 你 是 一 个 病人 ， 和 希望 根据 你 的 如 
医生 ， 而 不 是 一 个 。 如 果菜 种 
现在 ， 将 医生 换 成 分 类 法 ， 你 就 可 以 直观 地 理 















































G 组 合 起 来 ， 旨 在 







































































图 7. 17) 


创建 一 个 改进 的 分 类 法 Gr。 


行 诊断 。 


LE 确 率 的 一 役 技术 吗 ? 


,每 个 都 将 7 个 学 


你 可 能 选择 看 多 个 





诊断 比 其 它 诊断 出 






































技术 。 


现 的 次 数 多 ， 你 可 能 将 它 作 为 最 终 或 最 好 的 诊断 。 
解 装 袋 。 假 定 你 根据 医生 以 前 诊断 的 准确 率 ， 对 每 个 
医生 的 诊断 “ 值 ” 或 价值 赋予 一 个 权 值 ， 则 最 终 的 诊断 是 加 权 的 诊断 的 组 合 。 这 就 是 推进 的 基本 思 
想 。 让 我 们 进一步 考察 这 两 利 


















































给 定 s 个 样本 的 集合 $6， 装 袋 过 程 如 下 。 对 于 达 代 (t= 1,2,...， 7 )， 训 练 集 9 ,采用 放 回 
选 样 ， 由 原始 样本 集 8 选取。 由 于 使 用 放 回 选 样 ，S 的 某 些 样本 可 能 不 在 % 中， 而 其 它 的 可 能 出 现 
多 次 。 由 每 个 训练 集 5 学习， 得 到 一 个 分 类 法 C ,。 为 对 一 个 未 知 的 样本 分类， 每 个 分 类 法 C ， 









































返回 它 的 类 预测 ， 算 作 一 票 。 装 袋 的 分 类 法 Gt 统计 
平均 值 ， 而 不 是 多 数 ， 装 袋 也 可 以 用 于 连续 值 的 预测 。 
















































































并 将 得 票 最 高 的 类 赋予 到 通过 取得 票 的 
































在 推进 中 ,每 个 训练 样本 赋予 一 个 权 。 学 习 得 到 一 系列 分 类 法 。 学 习 得 到 分 类 法 CG. 后 , 更 新 权 ， 
使 得 随后 的 分 类 法 C , “更 关注 ”CC ,的 分 类 错误 。 最 终 的 推进 分 类 法 Gk 组 合 每 个 分 类 法 的 表决 ， 
这 里 每 个 分 类 法 的 表决 是 其 准确 率 的 函数 。 推 进 算法 也 可 以 扩充 到 连续 值 预测 。 































































































图 7.17 ”提高 分 类 的 准确 率 : 分 袋 和 推进 都 产生 一 系列 分 类 法 Cu 
Cs Cr。 使 用 选票 策略 组 合 给 定 未 知 样本 的 类 预测 


7.9.3 ”准确 率 确 定 分 类 法 够 吗 ? 












































除 准确 率 外 ， 分 类 法 还 可 以 根据 其 速度 、 鲁 棒 性 〈 例 如 ， 在 噪音 数据 上 的 准确 性 ) 、 可 规模 性 、 
可 解释 性 进行 比较 。 可 规模 性 可 以 通过 计算 给 定 分 类 算法 在 渐 增 的 数据 集 上 的 1/0 操作 次 数 评 佑 。 
可 解释 性 是 主观 的 ， 尽 管 我 们 可 以 在 评估 它 时 使 用 诸如 结果 分 类 法 的 复杂 性 例如， 判定 树 的 结 点 
数 ， 或 神经 网 络 的 隐藏 单元 数 ) 等 客观 度量 。 

“有 无 准确 率 度 量 的 替代 ? ”假定 你 已 经 训练 了 一 个 分 类 法 ， 将 医疗 数据 分 类 为 ”cancer” 
或 "non_cancer”。90% 的 准确 率 使 得 该 分 类 法 看 上 去 相当 准确 ， 但 是 如 果实 际 只 有 3-4% 的 训练 样本 
是 ”cancer”， 怎 么 样 ? 显然 ， 90% 的 准确 率 是 不 能 接受 的 一 一 该 分 类 法 只 能 正确 地 标记 ”non_cancer” 
样本 。 蔡 换 地 ， 我 们 希望 能 够 评估 该 分 类 法 能 够 识别 样本 ”cancer”( 称 作 正 样本 〉 的 情况 和 它 识别 
样本 ”non cancer”( 称 作 负 样本 〉 的 情况 。 为 此 ， 我 们 可 以 分 别 使 用 灵敏 性 和 特效 性 度量 。 此 外 ， 
我 们 可 以 使 用 精度 评估 标记 为 ”cancer”*”， 实 际 是 ”cancer”* 的 样本 的 百分比 。 这 些 度量 定义 为 



















































































































































































A t_ pos 
Sensitivity = 
pos 
(7. 28) 
i 
specificity = 一 ES 
neg 
(7. 29) 
3 t_pos 
Piecisio1n = 一 一 一 
(t_pos+f _pos) 
(7. 30) 





其 中 ，z_pos 是 真正 样本 (被 正确 地 按 此 分 类 的 ”cancer"* 样 本 ) 数 ，pos 是 正 (*cancer”) 样本 
数 ，t_neg 是 真 负 样 本 (被 正确 地 按 此 分 类 的 ”non_cancer* 样 本 ) 数 ，neg 是 负 (”*non_cancer”) 样 
本 数 ， 而 fpos 假 正 样 本 被 错误 地 标记 为 ”*cancer”* 的 ”non_cancer 样 本 ) 数 。 可 以 证 明正 确 率 是 
灵敏 性 和 特效 性 度量 的 函数 : 









































a EY neg 
accuracy = sensitivity + specificity 


0 
(pos+neg) (pos+neg) 
(7.31) 
“还 有 其 它 情 况 ， 准 确 性 可 能 不 合适 吗 ?” 在 分 类 问题 中 ， 通 常 假定 所 有 对 和 象 都 是 唯一 可 分 类 
的 : 即 ， 每 个 训练 样本 能 够 ， 并 仅 能 够 属于 一 个 类 。 然 而 ， 由 于 大 型 数据 库 中 的 数据 非常 发 散 ， 假 
定 所 有 的 对 象 都 唯一 可 分 类 并 非 总 是 合理 的 。 假 定 每 个 对 象 属 于 多 个 类 是 可 行 的 。 这 样 ， 如 何 度 量 
大 型 数据 库 上 分 类 的 准确 率 呢 ? 准确 率 度 量 是 不 合适 的 ， 因 为 它 没 考虑 样本 属于 多 个 类 的 可 能 性 。 









































































































































































































































不 返回 类 标号 ， 而 返回 类 分 布 概率 是 有 用 的 。 这 样 ， 准 确 率 度量 可 以 采用 二 次 猜测 : 一 个 类 预 
测 是 正确 的 ， 如 果 它 与 最 可 能 的 或 次 可 能 的 类 一 致 。 尽 管 这 在 某 种 程度 上 确实 考虑 了 对 象 的 非 唯 
分 类 ， 但 它 不 是 完全 解 。 





7.10 总结 

















四 ”分 类 和 预测 是 数据 分 析 的 两 种 形式 ， 可 以 用 于 提取 描述 重要 数据 类 的 模型 或 预测 未 来 的 数据 趋 
势 。 分 类 预测 分 类 标号 (类 ) ， 而 预测 建立 连续 值 函 数 模型 。 

四 ”分 类 和 预测 准备 阶段 的 预 处 理 可 能 涉及 数据 清理 (减少 噪音 ， 或 处 理 丢 失 的 值 )、 相 关 性 分 析 
(删除 不 相关 或 见 余 属性 ) 和 数据 变换 (如 ， 泛 化 数据 到 较 高 的 概念 屋 ， 或 对 数据 规范 化 〉。 

四 ”预测 的 准确 率 、 计 算 速 度 、 和 鲁 棒 性 、 可 规模 性 和 可 解释 性 是 评估 分 类 和 预测 方法 的 五 条 标准 。 

四 ”ID3 和 C4.5 是 判定 树 归纳 的 贪心 算法 。 每 种 算法 都 使 用 一 种 信息 论 度 量 ,为 树 中 每 个 非 树叶 结 
点 选择 测试 属性 。 剪 枝 算法 试图 通过 前 去 反映 数据 中 噪音 的 分 枝 ， 提高 准确 率 。 通常 ， 时 期 的 
判定 树 算 法 假定 数据 是 驻 留 内 存 的 一 一 对 大 型 数据 库 上 的 数据 挖 据 是 一 种 限制 。 其 后 ， 提 出 了 
一 旦 可 规模 化 的 算法 ,来 解 次 这。 间 题 :如 吕 IQSERINT 各 卫 林 算法 -判定 树 容易 转换 成 RTHEN 

分 类 规则 。 

国 朴素 贝 叶 斯 分 类 和 贝 叶 斯 信念 网 络 基于 后 验 概率 的 贝 叶 斯 定理 。 不 象 贝 叶 斯 分 类 (其 假定 类 条 

人 网 络 允 许 在 变量 子 集 之 间 定 义 类 条 件 独立 性 。 

四 ”后 向 传播 是 一 种 用 于 分 类 的 神经 网 络 算法 ， 使 用 梯度 下 降 方 法 。 它 搜索 一 组 权 ， 这 组 权 可 以 对 
数据 建 模 ， 使 得 数据 样本 的 网 络 类 预测 和 实际 类 标号 间 的 平均 平方 距离 最 小 。 可 以 由 训练 的 神 
经 网 络 提取 规则 ， 帮 助 改 进 学 习 网 络 的 可 理解 性 。 

四 ”关联 挖掘 技术 在 大 型 数据 库 中 搜索 频繁 出 现 的 模式 ， 可 以 用 于 分 类 。 

四 ”最近 相 邻 分 类 法 和 基于 案例 的 分 类 法 是 基于 要 求 的 分 类 方法 ， 它 们 在 模式 空间 存放 所 有 的 训练 
样本 。 因 此 ， 它 们 都 需要 有 效 的 索引 技术 。 在 遗传 算法 中 ， 规 则 群体 通过 交叉 和 变异 操作 “ 进 
化 ”， 直 到 群体 中 所 有 的 规则 都 满足 指定 的 闵 值 。 粗 烟 集 理论 可 以 用 来 近似 地 定义 类 ， 这 些 类 
根据 可 用 的 属性 是 不 可 区 分 的 。 模 糊 集 方法 用 成 员 程 度 函 数 替 换 连 续 值 属 性 的 “脆弱 的 ”陡峭 
阔 值 。 

田 ”线性 、 非 线性 和 广义 线性 回归 模型 都 可 以 用 于 预测 。 许 多 非 线 性 问题 都 可 以 通过 预测 变量 上 的 
变换 ， 转 换 成 线性 问题 

数据 仓库 技术 ， 如 面向 属性 的 归纳 和 多 维 数据 方 的 使 用 ， 都 可 以 与 分 类 方法 集成 ， 以 支持 快速 
多 层 挖掘 。 分 类 任务 可 以 使 用 数据 挖掘 查询 语言 说 明 ， 促 进 交 互 数据 挖掘 。 

四 ”分 层 的 k- 折 交叉 确认 是 一 种 推荐 的 评估 分 类 法 准确 率 的 方法 。 装 袋 和 推进 方法 通过 学 习 和 组 合 
一 系列 分 类 法 ， 可 用 于 提高 分 类 的 整体 准确 率 。 灵 敏 性 、 特 效 性 和 精度 是 对 准确 性 度量 的 替换 ， 
特别 是 当 感 兴趣 的 主 类 为 少数 时 。 

四 ”已 有 许多 关于 不 同 分 类 方法 的 比较 ， 并 且 该 问题 仍然 是 一 个 研究 课题 。 尚 未 发 现 有 一 种 方法 对 
所 有 数据 都 优 于 其 它 方法 。 如 准确 性 、 训 练 时 间 、 重 棒 性 、 可 解释 性 和 可 规模 性 必须 考虑 ， 并 

可 能 涉及 折衷 ， 使 得 寻求 更 好 方法 进一步 复杂 化 。 实 验 研究 表明 ， 许 多 算法 的 准确 性 非常 类 

似 ， 其 差别 是 统计 不 明显 的 ， 而 训练 时 间 可 能 显著 不 同 。 一 般 地 ， 大 部 分 神经 网 络 和 涉及 样 条 

的 统计 分 类 与 大 部 分 判定 树 方法 相 比 ， 趋 向 于 计算 量 大 。 
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习题 
7.1 简 述 判定 树 分 类 的 主要 步 又 
7.2 在 判定 树 归 纳 中 ， 为 什么 树 剪 校 是 有 用 的 ? 


7.3 给 定 判定 树 ， 你 有 选择 : (a) 将 判定 树 转 换 成 规则 ， 然 后 对 结果 规则 剪 校 ， 或 (b〉 对 判定 
树 剪 枝 ， 然 后 将 剪 枝 后 的 树 转换 成 规则 。 相 对 于 〈b) ， (a) 的 优点 是 什么 ? 









































7.4 为 什么 朴素 贝 叶 斯 分 类 称 为 “朴素 ”的 ? 简 述 朴素 贝 叶 斯 分 类 的 主要 思想 。 

7.5 比较 急切 分 类 〈 如 ， 判 定 树 、 贝 叶 斯 、 神 经 网 络 ) 相对 于 懒散 分 类 (如 ，& -最 临近 、 基 于 案 
例 的 推理 ) 的 优 缺 点 。 

7.6 下 表 由 雇员 数据 库 的 训练 数据 组 成 。 数 据 已 泛 化 。 对 于 给 定 的 行 ，count 表示 department, 
status，age 和 salary 在 该 行 上 具有 给 定 值 的 元 组 数 。 




























































































depart sta age Salary CC 
ment tus ount 
sales sen 31.. 46K... 3 
sales ior . 35 50K 0 
sales jun 26. . 26K. . . 4 
system ior .30 30K 0 
S jun Sl 31K... 4 
system ior .35 35K 0 
S jun 2 46K. . . 2 
system ior “25 50K 0 
S Sen 31. . 66K. . 
system ior 35 70K 5 
S jun 26.. 46K... 
market ior .30 50K 3 
ing sen 41.. 66K.. 
market ior .45 70K 3 
ing sen 36.. 46K... 1 
secret ior . 40 DOK 0 
ary jun 3 41K... 
secret ior .35 45K 4 
ary sen 46. . 36K... 
ior .50 40K 4 
jun 26.. 26K... 
ior .30 30K 6 








设 status 是 类 标号 属性 。 

(a) 你 将 如 何 修改 ID3 算法 ， 以 便 考 虑 每 个 泛 化 数据 元 组 〈 即 ， 每 一 行 ) 的 count? 

(b) 使 用 你 修改 过 的 ID3 算法 ， 构 造 给 定数 据 的 判定 树 。 

(c) 给 定 一 个 数据 样本 ， 它 在 属性 department，salary 和 age 上 的 值 分 别 为 “syrstems”， 
“46. .50K ”和 “20. . . 24”。 该 样本 status 的 朴素 贝 叶 斯 分 类 是 什么 ? 

(d) 为 给 定 的 数据 设计 一 个 多 层 前 馈 神 经 网 络 。 标 记 输 入 和 输出 层 结 点 。 

(e) 使 用 上 面 得 到 的 多 层 前 馈 神 经 网 络 ， 给 定 训练 实例 (sales,，senior, 31...35，46K. . . 50FK) ， 
给 出 后 问 传 播 算法 一 次 迭代 后 的 权 值 。 指 出 你 使 用 的 初始 权 值 和 偏 置 以 及 学 习 率 。 


7.7 ”给 定 K 和 描述 每 个 样本 的 属性 数 nx， 写 一 个 太 最 临近 分 类 算法 。 
7.8 “下 表 给 出 课程 数据 库 中 学 生 的 期 中 和 期 末 考 试 成 绩 。 


1 了 
期 中 考 期 末 考 试 



















































































































































































试 
了 2 84 
50 63 
81 77 
74 78 


94 90 








86 75 


59 49 
83 79 
65 77 
33 52 
88 74 
81 90 














(a) 对 数据 做 图 。 了 和 了 看 上 去 具有 线性 联系 吗 ? 
(b) 使 用 最 小 平方 法 ， 求 由 学 生 的 期 中 成 绩 预 测 学 生 的 期 末 成 绩 的 方程 式 。 
(c) 预测 期 中 成 绩 为 86 分 的 学 生 的 期 末 成 绩 。 


7.9 通过 对 预测 变量 的 变换 ， 有 些 非 线性 回归 模型 可 以 转换 成 线性 的 。 
程 Y = aXi 转换 成 可 以 用 最 小 平方 法 求解 的 线性 回归 方程 。 


7. 10 什么 是 推进 ?陈述 它 为 何 能 够 提高 判定 树 归 纳 的 准确 性 。 
7.11 证 明 准 确 率 是 灵敏 性 和 特效 性 度量 的 函数 。 即 ， 证 明 (7. 31) 式 。 


7. 12 当 一 个 数据 对 象 可 以 同时 属于 多 个 类 时 ， 很 难 评估 分 类 的 准确 率 。 陈 述 在 这 种 情况 下 ， 你 将 
使 用 何 种 标准 比较 在 相同 数据 上 建立 的 不 同 分 类 法 。 
















































































指出 如 何 将 非 线性 回归 方 
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文献 注释 
机 器 学 习 观 点 的 分 类 在 许多 书 中 都 有 介绍 ， 如 Weiss 和 Kulikowski[WK91] ，Michie， 
Spiegelhalter 和 Taylor[MST94],Langley[Lan96] 和 Mitchell[Mit91]。Weiss 和 Kulikowski [WK91] 
除 介 绍 了 分 类 法 性 能 评估 的 实用 技术 外 ， 还 比较 了 许多 不 同 领 域 的 分 类 和 预测 。 这 些 书 的 大 部 分 都 
介绍 了 本 章 讨 论 的 每 个 基本 分 类 方法 。 包 含 机 器 学 习 方 面 的 原始 论文 可 以 在 Michalksi, Carbonell 
和 Mitchell[MCM83, MCM86]，Kodratoff 和 Michalski[KM90]，Shavlik 和 Dietterich[SD90]， 
Michalski 和 Tecuci[MT94] 中 找到 。 关 于 数据 挖掘 应 用 的 机 器 学 习 介 绍 ， 见 Michalski，Bratko 和 
Kubat [MBK98] 。 
C4.5 算法 由 本 R._ Quinlan[Qui93] 在 书 中 介绍 。 该 书 给 出 了 关于 判定 树 归 纳 的 许多 问题 的 很 好 
介绍 ， 正 如 由 Murthy[Mur98] 的 关于 判定 树 归 纳 的 全 面 综述 一 样 。 判 定 树 归纳 的 其 它 算 法 包括 C4. 5 
前 驱 ID3(Quinlan[Qui86])、CART(Breiman，Friedman，01shen 和 Stone[BF0S84]) 、FACT (Loh 和 
Vanichsetakul [LV88]) ，QUEST (Loh 和 Shih[LS97]) ，PUBLIC(Rastogi 和 Shim[RS98]) ，CHAID 
(Kass[Kas80]，Magidson[Mag94] ) 。ID3 的 增 量 版 本 包括 ID4 (Schlimmer 和 Fisher[SF86a] ) 和 
ID5 (Utgoff[Utg88]) 。 此 外 ，INFERULE (Uthurusamy，Fayyad 和 Spangler[UFS91]) 由 非 决 定 的 数据 
学 习 ， 构 造 判定 树 。KATE (Manago 和 Kodratoff[MK91]) 由 复杂 的 结构 化 数据 学 习 ， 构 造 判 定 树 。 强 
调 在 数据 挖掘 中 可 规模 性 的 判定 树 算法 包括 SLIQ(Mehta，Agrawal 和 Rissanen[MAR96]) ， 
SPRINT (Shafer，Agrawal 和 MehtalSAM96]), 雨林 (Gehrke, Ramakrrishnan 和 GantiLGRG98])，BOAT 
(Gehrke，Ganti，Ramakrishnan 和 Loh[GGRL99]) 以 及 Kamber，Winstone Gong 等 [KWG+97] 。 早 期 
方法 的 介绍 包括 [Cat91，CS93a，CS93b] 。 判 定 树 归 纳 属性 选择 度量 比较 见 Buntine 和 
Niblett[BN92], Murthy[Mur98] 和 Shih[Shi00]。 这 些 度量 的 详细 讨论 见 Kononenko 和 Hong[KH97] 。 
属性 (或 特征 ) 构 造 在 Liu 和 Motoda[LM98a，LM98b] 中 介绍 。 具 有 属性 构造 的 系统 例子 包括 Langley， 
Simon， Bradshaw 和 Zytko 的 BACON[LSBZ87] ，Schimmer 的 StaggerlSch87] ，Pagallo 的 
FRINGE[Pag89]，Bloedorn 和 Michalski 的 AQ17-DCI [BM98]。 
有 许多 判定 树 剪 枝 算法 , 包括 代价 复杂 性 剪 枝 (Breiman, Friedman, 0lshen 和 Stone[BF0S84]) ， 
减少 错误 前 枝 (Quinlan[Qui87]) 和 悲观 估计 剪 枝 (Quinlan[Qui86]) .PUBLIC (rastogi 和 Shim[RS98]) 
将 判定 树 构造 和 剪 梳 集 成 在 一 起 。 基 于 MPL 的 剪 术 方 法 可 以 在 Quinlan 和 Rivest[QR89] ，Mehta， 
Agrawal 和 Sissanen[MAS95]， 以 及 Rastogi 和 Shim[RS98] 中 找到 。 其 它 方 法 包括 Niblett 和 
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Bratko[NB86] ，Hosking，Pednault 和 Sadan[HPS97] 。 前 枝 方法 的 实验 比较 见 Mingers [Min89]， 


Malerba, Floriana 和 Semera 





























等 [KWG+97] 中 。 

















贝 叶 斯 分 类 的 全 面 介 











es 























和 Kulikowski [WK91] 和 Mi 





素 贝 叶 斯 分 类 的 预测 能 





分 析 ， 见 Do 
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中 找到 。7.4.4 小 节 介 


Kanazawa[RBKK95] 给 出 。 














络 的 替换 策略 包括 EM 算法 (Lauritzen 
在 [CH92，Bun94，HGC95] 
后 向 传播 算法 在 Rume] 
































内 核 稠密 估计 ， 而 不 是 高 斯 估计 的 
































Heckerman[Hec96] ,在 信念 网 络 上 推理 


























中 提出 。 

















的 训练 贝 中 
图 7.8 给 出 的 





o[MFS95] 。 关 于 简化 判定 树 的 综述 ， 见 Breslow 和 

关于 由 判定 树 提取 规则 , 见 Quinlan[Qui87，Qui93] 。 也 可 以 直接 | 
通过 由 判定 树 提取 产生 规则 。 规 则 推导 算法 包括 CN2 (Clark 和 Niblett 
和 Machalski[HMM86]) ，ITRULE (Smyth 
和 Indurkhya[WI98]) 。 规 则 精炼 策 
Mangano[MM95] 中 找到 。 面 向 属 
中 提出 。7. 3. 6 小 节 介 绍 的 准确 率 或 分 类 


和 Goodman[SG92]) ，FOIL (Quin] 
1 给 定 的 规则 集 识 别 最 有 趣 的 规则 ， 可 以 在 Major 和 
生 的 归纳 与 判定 树 归 纳 的 集成 在 Kamber, Winstone，Gong 等 [KWG+97] 
mielinski 等 [AGI+92] 和 Kamber 





阔 值 在 Agrawal, Ghosh< 工 








例子 取 自 Russell 等 [RBKK95] 。 学 习 具 有 







































































P 找 到 。 关 于 
ingos 和 Pazzani[DP96] 。 对 于 朴素 贝 叶 
实验 报告 见 John[Joh97] 。 关 于 贝 叶 
的 算法 可 以 在 Russell 和 Norvig[RN95] 
斯 信念 网 络 的 梯度 下 降 法 在 Russell，Binder，Koller 和 



































Aha[BA97] 。 

E 导 规则 ， 而 不 是 
[CN89]) ,AQ15 (Hong, Mozetic 
an[lQui90]) 和 Swap-1 (Weiss 





可 以 在 Duda 和 Hart[DH73]， 模 式 识别 的 典型 教科 书 ， 以 及 诸如 Weiss 
tchell[Mit97] 等 机 器 学 习 教 材 F 类 条 件 独立 性 不 成 立时 ， 朴 
斯 分 类 法 ， 连 续 属性 
斯 信念 网 络 的 介绍 ， 见 
,以 及 Jensen[Jen96] 
































给 定 可 观察 变 














了 隐藏 变 量 的 信念 网 
的 训练 数据 学 习 信念 网 络 的 解 





hart，Hinton 和 而 11iams [RHW86] 中 提出 。 自 那 以 后 ， 业 已 提出 许多 变 





形 , 包括 替换 的 误差 函数 (Hanson 和 Burr[HB88], 网 络 拓 朴 的 动态 调整 (Fahlman 和 Lebiere[FL90]， 














Le Cun，Denker 和 Solla[LDS90])， 学 习 率 和 要 素 参 数 的 动态 调整 (Jacobs[Jac88]) 。 其 它 变形 在 
90, HKP91, Fu94, CR95, Bis95, 
向 传播 算法 的 很 好 解释 。 有 许多 由 神经 





Chauvin 和 Rumelhart [CR95]! 
Rip95] 。 许 多 机 器 学 习 书 籍 ， 如 [WK91，Mit97] ， 也 包含 后 

















讨论 。 神经 网 络 的 





籍 包括 





[RM86, H 














网 络 提取 规则 的 技术 ， 如 [SN88，Gal93，TS93，Fu94，Avn95，LSL95，CS96b，LGT97] 。7. 5.4 小 节 








介绍 的 规则 提取 方法 基于 Lu，Setiono 和 Liu[LSL95] 。! 
Craven 和 Shavlik[CS97] 中 找到 。Roy [Roy00j] 提 日 
人 脑 的 假定 有 和 裂缝。 神经 网 络 在 工业 、 商 务 和 科学 方面 











Lehr [WRL94] 中 。 


7. 6 节 介 绍 的 ARCS 在 Lent，Swami 入 
CAEP 分 类 法 使 用 显露 模式 ，1 


Hsu 和 Ma [LHM98] 提 出 。 
跃 显 露 模式 ， 在 Li，Don 






















































































神经 网 络 





dom[LSW97] 









































神经 网 络 提取 规则 技术 的 批评 可 以 在 

















的 理论 基 
的 应 月 


























melsLFH87]， 


























P 。 数 据 挖掘 





粗糙 集 的 详尽 总 结 包 扣 




















j 逻 和 辑 的 一 般 介 乡 



































于 连接 者 学 习 如 何 模型 
日 概览 在 Widrow，Rumelhart 和 


P 提 出, 也 在 第 6 章 介绍 。 关 联 分 类 由 Liu， 
Dong 和 Li[DL99] 提 出 。JEP 分 类 法 使 用 跳 
g 和 Rmamohanarao[LDR00] 中 介绍 。Meretaski 和 WUthrich [MW99] 提 出 通 
过 挖掘 长 项 集 构造 贝 叶 斯 分 类 法 。 
最 临近 方法 在 许多 分 类 统计 教科 书 
息 可 以 在 Cover 和 Hart[CH67] 以 及 Fukunaga 和 Hu 
献 包 括 教材 [RS89，Ko193，Lea96] 以 及 
粗糙 集 介 绍 在 Pawlak[Paw91]9 
于 许多 应 用 的 特征 归 约 和 专家 系统 ， 包 括 
法 已 在 [SR92] 中 提出 。 模 钉 








FP 讨论 ， 如 Duda 和 hart[DH73]，James[Jam85] 。 附 加 的 信 
找到 。 基 于 案例 的 推理 (CBR) 文 
[AP94] 。 关 于 遗传 算法 的 书籍 见 [Go189，Mic92，Mit96] 。 
ELZia91，CPS98] 。 粗 糙 集 业已 
[Zia91，LP97，Swi98] 。 降 低 寻 找 归 约 的 计算 强度 的 算 
可 以 在 [Zad65，BS97，CPS98]j 


























有 许多 好 教材 包含 回归 技术 ， 如 [Jam85，Dob90， JW92，Dev95，HC95, NKNW96， Agr96] 。 


PressTeukolsky, Vetterli 








性 和 多 元 回归 的 最 小 平方 法 。 
(Friedman[Fri91]) 。 对 数 线 ， 
数 线性 模型 见 Pearl[Pea88]。 回 归 树 (Brei 
党 可 以 与 其 它 回归 方法 媲美 ， 特 别 是 当 预 测 变量 间 存 在 许多 较 高 阶 的 依赖 时 

数据 清理 和 数据 变换 方法 在 Kennedy，Lee，Van Roy 等 [KLV+98]，Weiss 
以 及 本 书 第 3 章 讨论 。 涉 及 评估 分 类 法 准 
里 论 和 实验 研究 ， 与 保持 、 
Tibshirani[ET93]) 方 法 相 比 ， 评 佑 分 类 法 疹 
Briman[Bre96] 中 提出 。Freund 和 Schapire 
定 树 归纳 (Quinlan[Que96]) 和 朴素 贝 叶 斯 分 类 (Elkan[E1k97]) 。 灵 
讨论 。 



































Kohavi[Koh95] 的 








和 Baeza-Yates[FBY92]9 





一 














ng 和 Flanner 











针 近 的 非 线 ' 








生 模 型 在 计算 机 条 


加 归 模 型 包括 投影 追 避 





[学界 也 被 称 作 乘 法 模型 。 


man, Friedman, Olshe 





















































交叉 验证 

















E 确 率 的 调整 的 10- 折 交叉 验 订 








[FS97] 的 
































y[PTVF96j] 的 书 和 附带 的 原 代码 包含 许多 统计 过 程 ， 如 线 
片 (projection pursuit) 和 MARS 
计算 机 科学 角度 讨论 对 
n 和 Stone[BF0S84]) 在 性 能 上 常 





和 Indurkhya [WI98]， 
角 当 的 问题 在 Weiss 和 Kulikowski[WK91] 中 介绍 。 根 据 
、 留 一 (Stone[Sto74]) 和 解剖 
































这 (CEfron 和 








大 。 装 带 在 


























进 技术 业已 用 于 许多 不 同 的 分 类 法 ， 包 括 判 
敏 性 、 指 定性 和 精度 在 Frakes 











加 州 大 学 Irvine 分 校 (CUCI) 维护 了 一 个 数据 集 的 机 器 学 习 知 识 库 ， 用 于 分 类 算法 的 开发 和 测 
试 。 关 于 它 的 信息 ， 见 http://www. ics. uci. edu/ mlearn/MLRepository. html。 

没有 一 种 分 类 算法 对 所 有 的 数据 类 型 和 定义 域 都 优 于 其 它 分 类 算法 。 分 类 方法 的 实验 比较 包括 
[Qui88, SMT91, BCP93, CM94, MST94, BU95, LLS00]。 


















































第 八 章 ” 限 类 分 析 


设想 要 求 对 一 个 数据 对 象 的 集合 进行 分 析 ， 但 与 分 类 不 同 的 是 ， 它 要 划分 的 类 是 未 知 的 。 聚 类 
(clustering) 就 是 将 数据 对 象 分 组 成 为 多 个 类 或 艇 (cluster)， 在 同一 个 簇 中 的 对 象 之 间 具 有 较 高 的 相似 





























度 ， 而 不 同 艇 中 的 对 象 差 别 较 大 。 相 异 度 是 基于 描述 对 象 的 属性 值 来 计算 的 。 


























距离 是 经 常 采 用 的 度 





量 方式 。 聚 类 分 析 源 于 许多 研究 领域 ， 包 括 数 据 挖 据 ， 统 计 学 ， 生 物 学 ， 以 及 机 器 学 习 。 

















在 本 章 中 ， 大 家 将 了 解 基 于 大 数据 量 上 进行 操作 而 对 聚 类 方法 提出 的 要 求 ， 将 学 习 如 何 计算 由 











各 种 属性 和 不 同 的 类 型 来 表示 的 对 象 之 间 的 相 噶 度 。 还 将 学 习 几 种 聚 类 技术 ， 





类 :划分 方法 〈partitioning method)， 层 次 方法 (hierarchical method)， 基 于 密度 的 方法 (density-based 
method)， 基 于 网 格 的 方法 (grid-based method)， 和 基于 模型 的 方法 (model-based method)。 本 章 最 后 

















讨论 如 何 利 用 聚 类 方法 进行 孤立 点 分 析 (outlier detection)。 


8. 1 什么 是 聚 类 分 析 ? 























它们 可 以 分 为 如 下 几 














将 物理 或 抽象 对 象 的 集合 分 组 成 为 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 被 称 为 聚 类 。 由 聚 类 所 生 
成 的 久 是 一 组 数据 对 象 的 集合 ， 这 些 对 象 与 同一 个 簇 中 的 对 象 彼此 相似 ， 与 其 他 簇 中 的 对 象 相 异 。 















































在 许多 应 用 中 ， 一 个 复 中 的 数据 对 象 可 以 被 作为 一 个 整体 来 对 待 。 












































聚 类 分 析 是 一 种 重要 的 人 类 行为 。 早 在 孩提 时 代 ， 一 个 人 就 通过 不 断 地 改进 下 意识 中 的 聚 类 模 























式 来 学 会 如 何 区 分 猫 和 狗 ， 或 者 动物 和 植物 。 聚 类 分 析 已 经 广泛 地 用 在 许多 应 用 中 , 包括 模式 识别 ， 
数据 分 析 ， 图 像 处 理 ， 以 及 市 场 研究 。 通 过 聚 类 ， 一 个 人 能 识别 密集 的 和 稀 玻 的 区 域 ， 因 而 发 现 全 












































局 的 分 布 模式 ， 以 及 数据 属性 之 间 的 有 趣 的 相互 关系 。 



































“ 聚 类 的 典型 应 用 是 什么 ? ”在 商业 上 ， 聚 类 能 帮助 市 场 分 机 人 员 从 客户 基本 库 中 发 现 不 同 的 




















客户 群 ， 并 且 用 购买 模式 来 刻画 不 同 的 客户 群 的 特征 。 在 生物 学 上 ， 聚 类 能 月 
分 类 ， 对 基因 进行 分 类 ， 获 得 对 种 群 中 回 有 结构 的 认识 。 聚 类 在 地 球 观测 数据 
汽车 保险 持 有 者 的 分 组 ， 及 根据 房子 的 类 型 ， 价 值 ， 和 地 理 位 置 对 一 个 城市 



















































































日 于 推导 植物 和 动物 的 
库 中 相似 地 区 的 确定 ， 
房屋 的 分 组 上 也 可 以 























发 挥 作 用 。 聚 类 也 能 用 于 对 Web 上 的 文档 进行 分 类 ， 以 发 现 信 息 。 作 为 一 个 数据 挖掘 的 功能 ， 聚 类 
































分 析 能 作为 一 个 独立 的 工具 来 获得 数据 分 布 的 情况 ， 观 察 每 个 候 的 特点 ， 集 ， 














对 特定 的 某 些 徐 作 进 











一 步 的 分 析 。 此 外 ， 聚 类 分 析 可 以 作为 其 他 算法 〈 如 分 类 等 ) 的 预 处 理 步 又 ， 
徐 上 进行 处 理 。 









































这 些 算 法 再 在 生成 的 





数据 聚 类 正在 选 勃 发 展 ， 有 贡献 的 研究 领域 包括 数据 挖 据 ， 统 计 学 ， 机 器 学 习 ， 空 间 数据 库 技 
术 ， 生 物 学 ， 以 及 市 场 营 销 。 由 于 数据 库 中 收集 了 大 量 的 数据 ， 聚 类 分 析 已 经 成 为 数据 挖掘 研究 领 

















域 中 一 个 非常 活跃 的 研究 课题 。 






































作为 统计 学 的 一 个 分 支 ， 聚 类 分 析 已 经 被 广泛 地 研究 了 许多 年 ， 主 要 集 ! 
































在 基于 距离 的 聚 类 分 





析 。 基 于 k-means(k- 平 均值 )，k-medoids(k- 中 心 ) 和 其 他 一 些 方法 的 聚 类 分 析 工 具 已 经 被 加 入 到 许多 
统计 分 析 软 件 包 或 系统 中 ， 例 如 S-Plus，SPSS， 以 及 SAS。 在 机 器 学 习 领 域 ， 聚 类 是 无 指导 学 习 























(unsupervised learning) 的 一 个 例子 。 与 分 类 不 同 , 聚 类 和 无 指导 学 习 不 依赖 预先 


















































定义 的 类 和 训练 样本 。 


于 这 个 原因 ， 聚 类 是 通过 观察 学 习 ， 而 不 是 通过 例子 学 习 。 在 概念 聚 类 (conceptual clustering ) 




















中 ， 一 组 对 象 只 有 当 它 们 可 以 被 一 个 概念 描述 时 才 形 成 一 个 人马 。 这 不 同 于 基于 几何 距离 来 度量 相似 














度 的 传统 聚 类 。 概 念 聚 类 由 两 个 部 分 组 成 : (1) 发 现 合 适 的 簇 ; (2) 形成 对 每 个 艇 的 描述 。 在 这 里 ， 








追求 较 高 类 内 相似 度 和 较 低 类 间 相 似 度 的 指导 原则 仍然 适用 。 















































在 数据 挖掘 领域 ， 研 究 工作 已 经 集中 在 为 大 数据 量 数据 库 的 有 效 且 高 效 的 聚 类 分 析 寻 找 适 当 的 
方法 。 活 跃 的 研究 主题 集中 在 聚 类 方法 的 可 伸缩 性 ， 方 法 对 聚 类 复杂 形状 和 类 型 的 数据 的 有 效 性 ， 









































高 维 聚 类 分 析 技 术 ， 以 及 针对 大 的 数据 库 中 混合 数值 和 分 类 数据 的 聚 类 方法 。 



































聚 类 是 一 个 富有 挑战 性 的 研究 领域 ， 它 的 潜在 应 用 提出 了 各 自 特殊 的 要 求 。 数 据 挖掘 对 聚 类 的 





典型 要 求 如 下 : 














图。 可 伸缩 性 : 许多 聚 类 算法 在 小 于 200 个 数据 对 象 的 小 数据 集合 上 工作 得 很 好 ; 但 是 ， 一 个 
































大 规模 数据 库 可 能 包含 儿 百 万 个 对 象 ， 在 这 样 的 大 数据 集合 样本 上 进行 聚 类 可 能 会 导致 有 









































偏 的 结果 。 我 们 需要 具有 高 度 可 伸缩 性 的 聚 类 算法 。 











求 


处 理 不 同类 型 属性 


聚 类 其 他 类 型 的 数据 ， 如 二 元 类 型 (binary)， 分 类 / 标 称 


了 六 六 








的 能 力 : 许多 算法 被 设计 月 











型 (ordinal) 数据 ， 或 者 这 些 数据 类 型 的 混合 。 


发 现 生 
这 样 的 昌 





意 形状 的 。 











F 意 形状 的 聚 类 : 许多 聚 类 算法 基于 欧 几 里 得 或 者 曼哈顿 距离 度量 来 决定 聚 类 。 基 于 


日 来 聚 类 数值 类 型 的 数据 。 但 是 ， 
































必用 可 能 要 
Ccategoricalnominal )， 序 数 








类 型 




















E 离 度量 的 算法 趋向 于 发 现 具 有 证 

















日 近 尺度 和 密度 的 球状 人马 。 但 是 ， 一 个 徐 可 


人 
能 是 


任 











晶 
口 





8 能 发 现 他 




















数 ， 例 和 


聚 类 结 





F 意 形状 篮 的 算法 是 很 重要 的 。 
于 决定 输入 参数 的 领域 知识 最 小 化 ， 许多 聚 类 算法 刀 











E 聚 类 分 





析 











要 求 用 户 输入 一 定 的 参 





I 希望 产生 的 簇 的 数目 。 


RE 
[=] 


SA 





理 “ 噪 声 ” 数 据 的 能 


别 是 对 于 包含 
以 控制 。 
处 


[ 梧 











: 绝 大 多 数 现 实 








各 已 








数据 。 
数据 集 





聚 类 算法 

















区 





对 于 输入 记录 的 顺序 不 敏感 : 


人 
.#3 


据 输入 顺 
高 维度 (high dimensionality ): 一 个 数据 库 或 者 数据 仓库 可 能 包含 若干 维 
E 低 维 的 数据 ， 可 能 只 涉及 两 到 三 
够 很 好 地 判断 聚 类 的 质量 。 在 高 维 空间 中 聚 类 数 j 
这 样 的 数据 可 
基于 约束 的 聚 
在 一 个 城 





些 聚 类 算法 对 于 这 样 的 数据 敏感 ， 可 


一 些 聚 关 











AI 














序 不 敏感 的 算法 具有 重要 的 意义 。 























果 对 于 输入 参数 十 分 敏感 。 
维 对 象 的 数据 集 来 说 。 这 样 不 仅 加 重 了 用 户 的 负担 ， 也 使 得 聚 


月 可 - 
算法 对 于 输入 数据 的 顺序 是 敏感 的 。 例 如 ， 同 一 个 
以 不 同 的 顺序 交 给 同一 个 算法 时 ， 可 能 生成 差别 很 大 的 聚 类 结果 。 天 














参数 通常 很 难 确定 ， 特 
寻 聚 类 的 质量 难 

















的 数据 库 都 包含 了 孤立 点 ， 缺 失 ， 或 者 错误 的 


导致 低 质 量 的 聚 类 结果 。 











发 对 数 


二 


届 性 。 许 多 








或 者 























宣 长 处 型 




















能 分 布 非常 稀疏 ， 而 且 高 度 仿 斜 。 





维 。 人 类 的 眼睛 在 最 多 三 维 的 情况 下 能 


据 对 象 是 非常 有 挑战 性 的 ， 特 别 是 考虑 到 

















类 : 现实 世界 的 应 月 


市 中 为 给 定数 目 
同时 考虑 如 城市 的 河流 和 公路 网 ， 每 个 ] 















































定 的 约束 
可 解释 怕 

















具有 FE 





日 可 能 需要 在 各 利 
的 自动 提 款 机 选择 安放 位 置 


好 聚 类 特性 的 数据 分 组 是 一 : 














约束 条 件 下 进行 聚 类 。 假 设 你 的 工作 是 
， 为 了 作出 决定 ， 你 可 以 对 住宅 区 进 
地 区 的 客户 要 求 等 情况 。 要 找到 既 满足 特 
项 具有 挑战 性 的 任务 。 
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E 和 可 用 性 : 








用 户 希 望 











类 可 外 





二 
需要 























重要 的 下 





以 及 它们 对 








了 
聚 类 


各 种 聚 类 方法 ， 包 抬 


究 课题 。 








记 住 这 些 约束 , 我 们 对 聚 类 分 析 的 学 习 将 按 如 下 的 步骤 进行 。 首先 ， 学 习 不 同类 型 
方法 的 一 般 分 类 。 然 后 我 们 详细 地 讨论 了 


一 个 聚 类 





方法 的 影响 。 接 着 ， 给 出 了 


果 是 可 解释 的 ， 可 到 
和 特定 的 语义 解释 和 应 用 相 联系 。 应 用 目标 如 何 影响 聚 类 方法 的 选择 也 是 一 个 


E 解 的 ， 和 可 有 





日 的 。 也 就 是 说 ， 聚 











的 数据 ， 








































































































划分 方法 ， 层 次 方法 ， 基 于 密度 的 方法 ， 基 于 网 格 的 方法 ， 以 及 基于 模型 


的 方法 。 最 后 我 们 探讨 在 高 维 空间 中 的 聚 类 和 孤立 点 分 析 (outlier analysis ) 。 
8. 2 聚 类 分 析 中 的 数据 类 型 
在 这 一 节 中 ， 我 们 研究 在 聚 类 分 析 中 经 常 出 现 的 数据 类 型 ， 以 及 如 何 对 其 进行 预 处 理 。 假 设 要 





聚 类 的 数据 集合 包含 n 个 数据 对 象 ， 这 些 数 据 对 象 可 能 表示 人 ， 房 子 ， 文 档 ， 

































































存 的 聚 类 算法 选择 如 下 两 种 有 代表 性 的 数据 结构 : 








































































































上 家 等 。 许 多 基于 内 
































轩 ”数据 矩阵 (Data matrix, 或 称 为 对 象 属性 结构 ): 它 用 p 个 变量 (也 称 为 属性 ) 来 表现 n 个 对 象 ， 
例如 用 年 龄 ， 身 高 ， 性 别 ， 种 族 等 属性 来 表现 对 象 “ 人 ”。 这 种 数据 结构 是 关系 表 的 形式 ， 或 
者 看 为 nsp 维 Cn 个 对 象 *p 个 属性 ) 的 矩阵 。 

(8.1 p338?) 

国 ” 相 异 度 矩 阵 (dissimilarity matrix， 或 称 为 对 象 -对 象 结构 )， 存 储 n 个 对 象 两 两 之 间 的 近似 性 ， 

表现 形式 是 一 个 n*n 维 的 矩阵 。 

(8.2 p338?) 

在 这 里 dGj) 是 对 象 和 对 象 j 之 间 相 异性 的 量化 表示 ， 通 常 它 是 一 个 非 负 的 数值 ， 当 对 象 1 和 
j 越 相 似 ， 其 值 越 接 近 0， 两 个 对 象 越 不 同 ， 其 值 越 大 。 既 然 dij) = dj， 而且 dGD=0， 我 们 
可 以 得 到 形 如 (8.2) 的 矩阵 。 关 于 相 异 度 ， 我 们 在 这 一 节 中 会 进行 详细 探讨 。 





数据 和 





E 阵 经 常 被 称 为 二 模 (two-mode) 和 矩阵， 而 相 异 度 人 儿 














E 阵 被 称 为 单 模 (one-mode) 矩阵 。 这 








三 } 


是 因为 前 者 的 行 和 列 代 表 不 
阵 为 基础 。 如 果 数 据 是 
你 可 能 想 知道 如 何 来 估算 相 异 
象 的 相 异 度 ， 相 异 度 将 被 用 来 进行 




































































8.2.2 区 间 标 度 《Interval-Scaled) 


本 节 讨 论 区 间 标 度 变 量 和 它们 
的 对 象 的 相 异 性 。 距 离 的 度量 包括 











司 的 实体 ， 而 后 者 的 行 和 列 代表 
数据 和 矩阵 的 形式 表现 的 ， 在 使 用 该 类 算法 之 前 要 
度 。 在 本 节 中 ， 我 们 讨论 如 








对 象 的 聚 类 分 析 。 


变量 





的 标准 化 ， 然 后 














述 距 离 度量 





相同 的 实体 。 














可 计算 用 各 利 





类 型 的 











许多 聚 类 算法 以 相 
将 其 转化 为 相 异 度 矩 阵 。 
届 性 来 


异 度 算 








述 的 对 



































描述 




















已 通常 用 于 计算 用 该 





三 -二 




















欧 几 里 得 吕 











“什么 是 区 间 标 度 变 量 ? ” 
和 高 度 ， 经 度 和 纬度 坐标 ， 以 及 大 

选用 的 度量 单位 将 直接 影响 聚 
或 者 将 重量 的 单位 
单位 越 小 ， 变 量 可 和 


























i 改 为 “人 
EE 的 值 域 就 越 大 ， 这 样 对 聚 类 结果 
赖 ,数据 应 当 标准 化 。 标 准 化 度量 值 


气温 度 。 
类 分 析 的 结果 。 








6E 离 ， 曼 哈 顿 距离 ， 
区 间 标 度 变 量 是 一 个 线性 标 度 的 连续 度量 


侈 如 ， 将 高 度 的 度量 单位 由 








以 及 明 考 斯 基 距 离 。 


上 丘 
里 。 











可 能 产生 了 








试图 给 所 有 的 变 














这 样 做 是 十 分 有 用 的 。 但 是 ， 在 一 

















些 应 用 中 ， 








j] 户 








运动 员 进 行 聚 类 时 ， 我 们 可 能 愿意 
“怎样 将 一 个 变量 的 数据 标准 























ER 





给 高 度 变量 
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E 
可 能 
较 大 的 权 习 


联 业 疆 


E 常 不 同 的 聚 类 结构 。 


典型 的 例子 包括 重量 


类 变量 





ER 





2 光 改 为 有 
一 般 而 言 ， 所 月 


的 度量 























、 


4 影响 也 越 大 。 为 了 避免 对 度 
相等 的 权重 。 当 没有 关于 数据 的 2 
能 想 给 某 些 变量 较 大 的 权重 。 例 如 ， 


旦 。 























化 ? ”为 了 实现 / 


度量 值 








的 标准 化 ， 














换 为 无 单位 的 值 。 给 定 
1. 计算 
Sr 二 (Xir-mel+|x2r mal+. .+|Xne-ma) 
这 里 的 xie…. 

mr =(|X1f +X2f+.. .+Xnf)/n 

2. 计算 标准 化 的 度量 值 ， 


Zif = (Xif 一 Inf) /Sf 


























个 变量 f 的 度量 值 ， 
FEF 均 的 绝对 偏差 (mean absolute deviation ) Sr: 
(8.3 p3397) 
,Xnf 是 了 f 的 n 个 度量 值 ，ms 是 f 的 3 


/n 


可 以 进行 妇 








I 下 的 变换 ; 








或 z-score: 


(8.4 p840 ?) 








这 个 平均 的 绝对 1 
量 值 与 平均 值 的 偏差 没有 被 平方 ， 
差 的 度量 方法 ， 例 如 中 值 绝对 偏差 
立 点 的 z-score 值 不 会 太 小 ， 因 此 起 






































局 差 sf 比 标准 的 侦 


均值 





， 即 























差 对 于 孤立 点 具有 











更 好 的 鲁 棒 性 。 在 计算 平均 绝对 7 





























因 





此 孤立 点 的 影响 
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E 一 定 程度 上 被 减 小 了 











开 点 仍 可 以 被 发 现 。 


























在 特定 的 应 
给 了 用 户 。 在 第 三 章 是 
“好 的 , ”现在 你 








数据 预 处 理 


可 能 会 问 ， 


数据 标准 化 可 能 





的 规范 化 技术 




















度 ? ”在 标准 化 处 理 后 ， 
象 间 的 距离 来 计算 的 。 
d(1,j) = 

的 这 (xil，xi2，... 


























目的 吕 





最 常 月 














这 是 








用， 也 可 能 没 用 。 基 
FPF 也 讨论 了 标准 化 和 
“我 已 经 对 数据 进行 了 标准 化 处 理 
或 者 在 某 些 应 用 中 不 需要 标准 化 ， 对 象 | 





=} 
十 合 





此 














和 如 何 进 行 标准 
的 方法 。 
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Cy 





司 上 





























E 离 度量 方法 是 欧 几 
(? p340，8.5) 
,Xip) 和 j= 





(Xj1,X]j2,.. 


.xjp) 是 两 个 p 维 


它 上 





有 得 距离 ， 的 定义 如 下 : 











的 数据 对 象 。 











男 一 个 著名 的 度量 方法 是 曼哈顿 距离 ， 其 定义 如 下 : 


d (1, j) =|xil-xjl|+|xi2-xj2|+.. 





.+|xip-xjp| 
. 





上 面 的 两 种 距离 度量 
d (i，j) 宇 0: 距离 是 一 个 
d (i，i) =0: 一 个 对 象 与 
d (i,j) =d (j， i): 距离 函 


方法 都 满 
E 负 




















数 


自身 的 





足 对 距离 函数 的 如 
的 数值 。 

距离 是 0。 
具有 对 称 性 。 























上 DP 一 


d(i,j) dl(i,h)+tdh 
距离 。 




















明 考 斯 基 距离 是 欧 儿 里 得 距离 和 曼 





上 得 有 


，j): 从 对 象 I 到 对 和 象 j 的 直接 


哈 顿 距离 的 概 化 ， 


D (LI，j) = (xil-xllq+|xi2-xj2|q+.….+|xip-xjplq) 1/q 




















这 中 





个 正 整 数 。 当 
民 据 其 重要 性 


的 q 是 
如 果 对 每 个 变量 
































gq=1 时 ， 它 表示 曼哈顿 





赋予 一 个 权重 ， 力 


E 离 ， 当 a=2 表示 欧 几 日 
[I 权 的 欧 几 里 得 距离 可 以 计算 如 下 : 


(8.6 p3407) 


下 数学 要 求 : 


一 种 方法 是 将 原来 的 度量 值 


位 选择 的 依 
E 验 知识 时 ， 





Jw 


对 篮球 











转 

















局 差 时 ， 度 


。 昌 然 存 在 更 好 的 对 偏 
(median absolute deviation)， 但 采用 平均 绝对 偏差 的 优点 在 于 抓 


化 的 选择 被 留 


我 该 如 何 计算 对 象 间 的 相 异 
的 相 异 度 〔 或 相似 度 〉 是 基于 对 














E 离 不 会 大 于 途径 任何 














他 对 象 的 











它 的 定义 如 下 : 


(8.7 p341 ?) 























E 得 距离 。 























d (1, j) = willxil-xjll2+ (2p341,8.8) 


8.2.3 二 元 变量 (binary variable) 


本 小 节 介 绍 如 何 计算 用 二 元 变量 描述 的 对 象 间 的 相似 度 。 

一 个 二 元 变量 只 有 两 个 状态 : 0 或 1，0 表示 该 变量 为 空 ，1 表示 该 变量 存在 。 例 如 ， 给 出 一 个 
像 处 理 区 间 标 度 变量 一 样 来 对 待 
二 元 变量 会 误导 聚 类 结果 ， 所 以 要 采用 特定 的 方法 来 计算 其 相 异 度 。 
“那么 ， 我 怎 伴 计 算 油 个 二 元 变量 之 问 的 相似 度 ? ”一 个 方法 涉及 对 给 定 的 数据 计算 相 异 度 矩 
阵 。 如 果 假 设 所 有 的 二 元 变量 有 相同 的 权重 ， 我 们 得 到 一 个 两 行 两 列 的 可 能 性 表 8.1。 在 表 中 ,qd 是 
对 对 象 1 和 j 值 都 为 1 的 变量 的 数目 , r 是 在 对 象 i 中 值 为 1， 在 对 象 j 中 值 为 0 的 变量 的 数目 ，s 是 
在 对 象 i 中 值 为 0， 在 对 象 j 中 值 为 1 的 变量 的 数目 , t 是 在 对 象 1 和 j 中 值 都 为 0 的 变量 的 数目 。 变 
量 的 总 数 是 p，p=q+r+s+t。 









































































































































































































































表 8.1 二 元 变量 的 可 能 性 表 
对 象 j 


对 象 I 


(? p341) 








“对 称 的 二 元 变量 和 不 对 称 的 二 元 变量 之 间 的 区 别 是 什么 ? ”如 果 它 的 两 个 状态 有 相同 的 权重 ， 
那么 该 二 元 变量 是 对 称 的 ， 也 就 是 两 个 取 值 0 或 1 没有 优先 权 。 例 如 ， 属 性 “性 别 ” 就 是 这 样 的 一 
个 例子 ， 它 有 两 个 值 :“ 女 性 ”和 “男性 ?。 基 于 对 称 二 元 变量 的 相似 度 称 为 恒定 的 相似 度 ， 即 当 一 
些 或 者 全 部 二 元 变量 编码 改变 时 ， 计 算 结 # 果 不 会 发 生变 化 对 恒定 的 相似 度 来 说 ， 评 价 两 个 对 象 i 
和 j 之 间 相 异 度 的 最 著名 的 系数 是 简单 中 配 系数 ， 其 定义 如 下 : 

d(1,j) = (r+s) / (q+r+s+t) (8.9 p342 ?) 


































































































如 果 两 个 状态 的 输出 不 是 同样 重要 ， 那 么 该 二 元 变量 是 不 对 称 的 。 例 如 一 个 疾病 检查 的 肯定 和 
否定 的 结果 。 根 据 惯 例 ， 我 们 将 比较 重要 的 输出 结果 ， 通 常 也 是 出 现 几率 较 小 的 结果 编码 为 1〈 例 
如 ，HIV 阳性 )， 而 将 另 一 种 结果 编码 为 0 (例如 HIV 阴性 )。 给 定 两 个 不 对 称 的 二 元 变量 ， 两 个 都 
取 值 工 的 情况 《 正 匹 配 ) 被 认为 比 两 个 都 取 值 0 的 情况 《〈《 负 匹配 ) 更 有 意义 。 因 此 ， 这 样 的 二 元 变 
量 经 常 被 认为 好 像 只 有 一 个 状态 。 基 于 这 样 变 量 的 相似 度 被 称 为 非 恒定 的 相似 度 。 对 非 恒 定 的 相似 
度 ， 最 著名 的 评价 系数 是 Jaccard 系数 ， 在 它 的 计算 中 ， 负 匹配 的 数目 被 认为 是 不 重要 的 ， 因 此 被 

忽略 。 

DGJ) = (+s) / (q+r+s) (8.10) 






































































































































er 



































当 对 称 的 和 非 对 称 的 二 元 变量 出 现在 同一 个 数据 集中 ， 在 8.2.4 六 中 描述 的 混合 变量 方法 可 以 
被 应 用 。 



































例 8.1 二 元 变量 之 间 的 相 异 度 : 假设 一 个 病人 记录 表 〈 表 8.2) 包含 属性 name (姓名 ) , gender (性 
别 ) , fever( 发 烧 ) ,cough (感冒 ) ,test-l, test-2, test-3， 和 test-4， 这 里 的 name 是 对 象 标 识 ，gender 
是 对 称 的 二 元 变量 ， 其 余 的 属性 都 是 非 对 称 的 二 元 变量 。 























表 8.2 大 部 分 为 二 元 属性 的 关系 变量 
(p343 97) 




















对 非 对 称 属性 ， 值 Y(yes) 和 P(positive) 被 置 为 1, 值 Nao 或 者 negative) 被 置 为 0。 假设 对 象 (病人 ) 
之 间 的 距离 只 基于 非 对 称 变量 来 计算 。 根 据 Jaccard 系数 公式 (8.10)， 三 个 病人 Jack,Mary, 和 Jim 两 
两 之 间 的 相 异 度 如 下 : 






































dOjack,mary) = (0+1)/(2+0+1) = 0.33 (8.11 p343) 
dOjack,jim) = (1+1)/ (1+1+1) = 0.67 (8.12 p343?) 
dUim,mary)=(1+2)/(1+1+2) = 0.75 (8.13 p343 ?) 
上 面 的 值 显示 Jim 和 Mary 不 可 能 有 相似 的 疾病 ， 因 为 他 们 有 着 最 高 的 相 异 度 。 在 这 三 个 病人 中 
Jack 和 Mary 最 可 能 有 类 似 的 疾病 。 















































8.2.4 标 称 型 、 序 数 型 和 比例 标 度 型 变量 








本 节 讨 论 如 何 计算 用 标 称 《Nominal)， 序 数 ‘Ordinal〉 和 比例 标 度 (Ratio-Scaled) 变量 描述 的 
对 象 之 间 的 相 异 度 。 


标 称 变量 
标 称 变量 是 二 元 变量 的 推广 ， 它 可 以 具有 多 于 两 个 的 状态 值 。 例 如 ，map_color 是 一 个 标 称 变 

量 ， 它 可 能 有 五 个 值 : 红色 ,黄色 ,绿色 ， 粉 红色 ， 和 蓝 色 。 

假设 一 个 标 称 变量 的 状态 数目 是 M。 这 些 状 态 可 以 用 字母 ,符号 , 或 者 一 组 整数 (如 1, 2，.…,MD) 
来 表示 。 要 注意 这 些 整数 只 是 用 于 数据 处 理 ， 并 不 代表 任何 特定 的 顺序 。 

“如 何 计算 标 称 变量 所 描述 的 对 象 之 间 的 相 异 度 ? ”两 个 对 象 1 和 j 之 间 的 相 异 度 可 以 用 简单 匹 
配方 法 来 计算 : 

d(Lj) = (p-m)/p . 14 p343) 
这 里 m 是 匹配 的 数目 ， 即 对 i 和 j 取 值 相同 的 变量 的 数 而 p 是 全 部 变量 的 数目 。 我 们 可 以 通过 
赋 权 重 来 增加 m 的 影响 ， 或 者 赂 给 有 较 多 状态 的 变量 的 匹配 更 大 的 权重 。 




















































































































































































































Yn 



























































通过 为 每 个 状态 创建 一 个 二 元 变量 ， 可 以 用 二 元 变量 来 表示 标 称 变量 。 对 一 个 有 特定 状态 值 的 
对 象 ， 对 应 该 状态 值 的 二 元 变量 值 置 为 1， 而 其 余 的 二 ie 0。 例 如 ， 为 了 对 标 称 变量 
map_color 进行 编码 ， 对 应 于 上 面 所 列 的 五 种 颜色 分 别 创建 一 元 变量 。 如 果 一 个 对 象 是 黄色 ， 
那么 yellow 变量 被 赋值 为 1, 而 其 余 的 四 个 变量 被 赋值 为 0。 0 可 以 采用 在 8.2.2 
节 中 讨论 的 方法 来 计算 相 异 度 。 


序数 型 变量 
一 个 离散 的 序数 型 变量 类 似 于 标 称 变量 ， 除 了 序数 型 变量 的 M 个 状态 是 以 有 意义 的 序列 排序 的 。 

序数 型 变量 对 记录 那些 难以 客观 度量 的 主观 评价 是 非常 有 用 的 。 例如 , 职业 的 排列 经 常 按 某 个 顺序 ， 
例如 助理 ， 副 手 ， 正 职 。 一 个 连续 的 序数 型 变量 看 起 来 象 一 个 未 知 刻 度 的 连续 数据 的 集合 ， 也 就 是 
说 ， 值 的 相对 顺序 是 必要 的 ， 而 其 实际 的 大 小 则 不 重要 。 例 如 ， 在 某 个 比赛 中 的 相对 排名 例如 金 
牌 ， 银 牌 ， 和 铜牌 ) 经 常 比 事实 的 度量 值 更 为 必需 。 将 区 间 标 度 变量 的 信 域 划分 为 有 限 个 区 间 ， 从 
而 将 其 值 离散 化 ， 也 可 以 得 到 序数 型 变量 。 一 个 序数 型 变量 的 值 可 以 映射 为 排序 。 例 如 ， 假 设 一 个 
变量 f 有 Mf 个 状态 ， 这 些 有 序 的 状态 定义 了 一 个 序列 1，.…,Mt。 
“怎样 处 理 序数 型 变量 ? ”在 计算 对 象 的 相 异 度 时 ， 序 数 型 变量 的 处 理 与 区 间 标 度 变 量 非 常 类 
似 。 b> f 是 用 于 描述 n 个 对 象 的 一 组 序数 型 变量 之 一 ， 关 于 f 的 相 异 度 计 算 包 括 如 下 步 又 : 
. 第 i 个 对 和 象 的 f 值 为 xif， 变 量 f 有 Mf 个 有 序 的 状态 ， 对 应 于 序列 1，...，Mf。 用 对 应 的 rif 
代替 xif, rifE {1,...,Mf}。 
2. 既然 每 个 序数 型 变量 可 以 有 不 同 数 目的 状态 ， 我 们 经 常 必须 将 每 个 变量 的 值 域 映射 到 [0 .0， 

1.0] 上， 以 便 每 个 变量 都 有 相同 的 权重 。 这 一 点 可 以 通过 用 zif 代替 rif 来 实现 。 































































































































































































































































































































































































































































































































































































Zif = (if -1) / (Mf-1) (8.15 p344) 
3. 相 异 度 的 计算 可 以 采用 8.2.1 节 所 描述 的 任意 一 种 距离 度量 方法 , 采用 zif 作为 第 i 个 对 象 的 
f 值 。 
比例 标 度 型 变量 





比例 标 度 型 变量 在 非 线 性 的 刻度 取 正 的 度量 值 
(? 8.16 p345) 
这 里 的 A 和 B 是 正 的 常数 。 典 型 的 例子 包括 细菌 


列 如 指数 ， 近 似 地 遵循 如 下 的 公式 














~ 















































数目 的 增长 ， 或 者 放射 性 元 素 的 衰变 。 




















“如 何 计算 用 比例 标 度 型 变量 





























述 的 对 象 之 间 的 相 异 度 ? ”目前 有 三 种 























加 ”采用 与 处 理 区 间 标 度 变量 同样 的 方 


可 能 被 扭曲 了 。 


























变换 得 到 的 yf 值 可 以 采 





] 在 8.2.1 
































法 。 但 是 ， 这 利 








作法 通 


方法 : 
常 不 是 一 个 好 的 选择 ， 因 为 刻度 














对 比例 标 度 型 变量 进行 对 数 变 换 ， 例 如 对 象 i 的 f 变 量 的 值 xif 被 变换 为 yif, yif = log(xif)。 














日 








他 























度 型 变量 ， 可 以 采用 log-l 





og 或 者 





他 形式 的 变换 ， 具 体 




















A 




















图 
尽管 选 


Tm 








] 哪 种 方法 取决 于 实际 的 应 











8.2.5 混合 类 型 的 变量 


A 


在 8.2.1 
可 能 是 区 间 标 度 变 量 ， 对 
但 是 在 许多 真实 的 数据 库 中 ， 对 象 是 被 混 
面 列 出 的 全 部 六 种 类 型 。 

















全 
口 











旦 从 类 型 


述 的 方法 来 处 理 。 


四 











里 。 需 要 注意 的 是 ， 对 一 些 比例 标 
的 做 法 取决 于 定义 和 应 用 。 





将 xif 看 作 连 续 的 序数 型 数据 ， 将 其 秩 作为 区 间 标 度 的 值 来 对 待 。 

















1 8.2.3 节 中 讨论 了 计算 由 同 种 类 型 变量 描述 的 对 象 之 间 的 相 异 度 的 方法 ， 变 量 的 


昌 ， 但 后 两 种 方法 是 比较 有 效 的 。 















































“那么 ， 我 们 怎样 计算 月 
分 组 ， 对 


1 三 | 





日 泥 El 














但 是 ， 在 实际 的 应 用 中 ， 这 种 情况 是 不 大 可 
一 个 更 可 取 的 方法 是 将 所 有 的 变量 一 起 
量 组 合 石 
























































能 的 。 
处 理 ， 只 进行 














次 


描述 的 对 象 之 间 的 相 异 度 ? ” 
每 种 类 型 的 变量 进行 单独 的 肾 类 分析 。 如 果 这 些 分 析 得 到 兼容 的 结果 ， 这 和 


Hx > 
A 


个 相 异 度 矩 阵 中 ， 把 所 有 有 意义 的 变量 转换 到 共同 的 值 域 区 间 [0.0, 1.0] 上 。 


类 型 
称 二 元 变量 ,不 对 称 二 元 变量 , 标 称 变量 ,序数 型 变量 或 者 比例 标 度 型 变量 。 
类 型 的 变量 描述 的 。 一 般 来 说 ， 一 个 数据 库 可 能 包含 上 











种 方法 是 将 变量 按 类 型 


[方法 是 可 行 的 。 




















le 
二 


分 析 。 一 种 技术 将 不 同类 型 的 变 

















假设 数据 集 包 含 p 个 不 同类 型 的 变量 ， 对 象 1 和 j 之 间 的 相 异 度 d(ij) 定 义 为 


d(Dj) = (2 8. 


17 p346) 





如 果 xif 或 xi 缺失 〈 即 对 象 i 或 对 








| 象 j 没有 变 








量 f 的 度量 值 ), 或 者 

















xif=xi<0， 且 变量 f 是 不 对 称 的 二 





元 变量 ， 则 指示 项 (? ) =0; 和 否则， 指示 项 〈? ) =1。 变 量 f 对 i 和 j 之 间 相 异 度 的 计算 方式 与 其 





其 体 类 型 有 关 : 


























加 ”如 果 f 是 二 元 或 标 称 变 量 : 如 果 Xif =Xjf» di@ (? ) =0; 和 否则 di 














加 ”如果 f 是 区 间 标 度 变 量 : di (? ) = (? )， 这 里 的 h 包含 了 
国 ”如果 f 是 序数 型 或 者 比例 标 度 型 变量 ， 计算 秩 rt 和 zi (? )， 
































D (? ) =1。 
所 有 有 变量 f 值 的 对 象 。 
将 zt 作为 区 间 标 度 变 量 值 对待 。 



































这 样 ， 当 描述 对 象 的 变量 是 不 同类 型 时 ， 对 和 象 之 间 的 相 异 度 也 能 够 进行 计算 。 

















8.3 主要 聚 类 方法 的 分 类 






































目前 在 文献 
果 聚 类 分 析 被 用 作 描述 或 探查 的 工具 ， 可 以 对 同样 的 数据 尝试 多 和 
果 。 

大 体 上 ， 主 要 的 聚 类 算法 可 以 划分 为 如 


存在 大 量 的 聚 类 算法 。 算 法 的 选择 取决 于 数据 的 


下 几 类 ; 








类 型 ， 聚 类 的 目的 和 应 用 。 如 


和 算法， 以 发 现 数据 可 能 揭示 的 结 























划分 方法 (partitioning methods): 给 定 一 个 n 个 对 象 或 元 组 的 数据 库 ， 一 个 划分 方法 构建 数据 的 








个 划分 ， 每 个 划分 表示 一 个 聚 类 ， 


要 求 : (1) 每 个 组 至 少 包含 一 个 对 象 ; (2) 

















分 技术 中 第 二 个 要 求 可 以 放宽 。 在 参考 文献 中 列 出 了 对 于 该 类 技术 的 参照 。 


4 





给 定 k， 即 要 构建 的 划分 的 数目 ， 划 
位 技术 ， 尝 试 通过 对 象 在 划分 间 移 动 来 改进 
象 之 间 的 距离 尽 可 能 小 ， 而 不 同类 中 的 对 象 
则 。 



































类 会 





为 了 达到 全 局 最 优 ， 基 于 划分 的 聚 


























值 来 表示 。(2) kmedoids 算法 ， 在 该 算法 














P， 每 


并且 k<=n。 也 就 是 说 ， 它 将 数据 万 





每 个 对 象 必须 











分 方法 首先 创建 一 个 初始 划分 。 然 后 
一 个 好 的 划分 的 一 般 准则 是 ， 在 同一 个 类 
。 还 有 访 


划分 。 
之 间 的 距离 尽 可 能 

















要 求 穷 举 所 有 可 能 的 划 
了 以 下 两 个 比较 流行 的 启发 式 方法 : (1) k-means 算法 ， 











在 该 算法 





| 分 为 k 个 组 ， 同 时 满足 如 下 的 




















属于 且 只 属于 一 个 组 。 注 意 在 某 些 模 糊 划 
采用 一 种 迭代 的 重 定 











中 的 对 
[多 其 他 划分 质量 的 评判 准 


























MA 


分 。 实 际 上 ， 绝 大 多 数 应 用 采用 
中 ， 每 个 饼 用 该 簇 中 对 和 象 的 平均 















































介 秘 





接近 聚 类 ， 




















心 的 一 个 对 象 来 表示 。 这 些 局 发 





广 i 吹 





式 聚 类 方法 对 在 中 小 规模 的 数据 库 中 发 现 球状 侯 和 
基于 划分 的 方法 需要 进一步 的 扩展 。8.4 节 对 基于 划分 的 聚 类 方法 进行 了 深入 











聚 类 ， 











里 复杂 形状 的 
的 研究 。 








层次 的 方法 (hierarchical method 
如 何 形 成 ， 






































次 的 最 上 层 )， 或 者 达到 
和 象 置 于 一 个 艇 中 。 


簇 中 ， 或 者 达 上 条 件 。 


一 个 终 1 























到 一 个 终 | 








层次 的 方法 可 以 被 分 为 
始 将 每 个 对 象 作 为 单独 的 一 个 组 , 然后 继续 地 合 3 


在 迭代 的 每 一 步 

















s): 


凝聚 





























族 
层次 的 方法 的 缺陷 在 于 
是 有 用 的 ， 由 于 不 用 担心 台 


岂 

















昌 合 数目 


旦 一 个 步骤 《〈 合 ; 


























它 不 能 更 
间 的 联接 ， 例 如 CURE 和 有 
底 向 J 


的 聚 类 方 








| Chame 











; 云 。 





上 的 层次 算法 ， 然 后 用 迭代 的 习 








leon 


EE 定位 来 改进 结果 。 



































而 在 发 现任 意 形 状 的 艇 上 过 到 了 
要 临近 区 域 的 密度 〈 对 象 或 数据 
每 个 数据 点 ， 在 一 个 给 定 范围 的 
首 ” 数 据 ， 发 现任 意 形状 的 簇 。 











基于 密度 的 方法 : 绝 大 多 数 划 分 方法 基于 对 象 之 间 的 虽 




















办 难 。 随 之 提出 了 基 导 


























区 域 中 必须 包含 至 少 


本 











DBSCAN 是 























个 有 代表 性 的 基于 密度 的 方法 ， 它 根 ] 


是 另 一 个 基于 密度 的 方法 ， 它 为 自动 的 ， 交 互 的 聚 类 分 析 计 算 




















基于 密度 的 聚 类 方法 将 在 8.6 节 | 




















的 讨论 。 








进行 详细 





























基于 网 格 的 方法 (grid-based methods ): 基于 网 格 的 方法 把 对 象 空 间 量化 为 有 限 数 











一 个 网 格 结构 。 所 有 的 聚 类 











操作 都 在 这 个 网 格 结构 〈 即 量化 上 


























是 它 的 处 理 速 度 很 快 , 其 处 理 
STING 是 基于 网 格 方法 
又 是 基 了 
































定 模型 的 最 介 
类 。 它 也 基于 标 疹 
































一 些 聚 类 算法 
去 是 很 困难 的 。 此 外 ， 某 些 应 月 
在 接 下 来 的 章节 














一 < 











日 可 能 有 特定 的 
PF， 我 们 将 详细 讨论 上 述 的 五 





时 间 独 立 于 数据 对 象 的 数目 ， 只 
的 一 个 典型 例子 。CLIQUE 和 Wa 
F 密度 的 。 对 基于 网 格 方法 的 详细 讨论 将 在 8.7 节 中 进 














基于 模型 的 方法 (model-based methods): 基于 模型 的 方法 为 每 个 秘 假 定 了 一 个 模型 ， 





匹配 。 一 个 基于 模型 的 算法 可 能 通过 构建 反映 数据 点 空间 分 布 的 密度 函 
的 统计 数字 自动 决定 聚 类 的 数目 ， 考 虑 “噪音 ”数据 和 和 孤立 点 ， 从 而 产生 健壮 的 
聚 类 方法 。 基 于 模型 的 聚 类 方法 将 在 8.8 节 子 以 讨 


| 论 。 





Hx > 
条 从 


[2 
二 

















民 适 用 。 为 了 对 大 


相近 的 对 象 或 组 , 直 3 
条 件 。 分 裂 的 方法 ， 也 称 为 自 顶 向 下 的 方法 ， 
， 一 个 复 被 分 裂 为 更 小 的 徐 ， 直 


PP 的 做 法 。(2) 综合 层次 凝 


密度 的 另 一 类 聚 类 方法 ， 其 主要 
点 的 数目 ) 超过 某 个 阔 值 


某 个 


标准 
类 聚 类 


规模 的 数据 集 进 行 聚 





类 ， 


以 及 处 


























慨 次 的 方法 对 给 定数 据 集合 进行 层次 的 分 解 。 根 据 层 次 的 分 解 
的 或 分 裂 的 方法 。 


凝聚 的 方法 ， 也 称 为 自 底 








加 上 的 方法 ， 一 





到 所 有 的 组 









































| 合并 为 
始 将 所 有 的 对 


个 ( 层 

































































到 最 终 每 个 对 象 在 单独 的 一 个 


或 分 裂 ) 完成 ， 它 就 不 能 被 撤消 。 这 个 严格 规定 
的 不 同 选择 ， 计 算 代价 会 较 小 。 但 是 ， 该 技术 的 一 个 主要 问题 


三 | 
征 








FE 错误 的 决定 。 有 两 种 方法 可 以 改进 层次 聚 类 的 结果 : (1) 在 每 层 划分 中 ， 仔 细 


分 


对 象 








聚 和 迭代 的 重 定位 方法 。 
例如 在 BIRCH : 






































es 


了 

















E 用 














的 方法 。8.5 节 讨 论 了 层次 


E 离 进行 聚 类 。 这样 的 方法 只 能 发 现 球状 的 簇 ， 




















口 





4 





， 就 继续 聚 类 。 也 曾 


数目 的 点 。 这 样 的 方法 可 以 月 








是 说 ， 对 





























据 一 个 密度 阔 值 来 探 人 


一 个 聚 类 顺序 。 


症 簇 的 增长 








忆 


给 定 


日 来 过 滤 “ 噪 


! 想 是 : 


类 


YN 


的 














。OPTICS 























的 空间 ) 上 进行 。 这 种 方法 











目的 单元 ， 形 成 了 
的 3 


要 优点 














与 量化 空间 中 每 一 维 的 单元 数目 有 关 。 


























行 。 





可 - 




















， 要 求 综合 多 个 聚 类 技术 。 
方法 ， 同 时 也 将 介绍 综合 





了 多 和 


veCluster 这 两 种 算法 既是 基于 网 格 的 ， 


找 数据 对 给 
数 来 定位 聚 





于 JI 细 口 


思想 的 算法 。 作 为 与 罕 类 分 析 密 切 相 关 的 孤立 点 分 析 将 在 8.9 节 中 讨论 。 


8.4 划分 方法 〈partitioning 


给 定 一 个 包含 n 个 数据 对 象 的 数据 库 ， 以 及 要 生成 的 艇 的 数 
h 每 个 划分 代表 


组 织 为 k 个 划分 (kK 万 n)， 其 中 
函数 ，similarity function)， 例 如 盟 
“ 相 异 的 ”。 








算法 : k-means。 


methods) 





一 个 嫉 。 





























通常 会 采用 一 个 划分 淮 


























E 离 ， 以 便 在 同一 个 仿 ， 


目 k， 一 个 划分 类 的 算法 将 数据 对 象 
E 则 (经常 称 为 相似 度 

















的 对 象 是 “相似 的 ” 而 不 同 艇 ! 











的 对 象 是 








输入 : 簇 的 数目 k 和 包含 n 个 对 象 的 数据 库 。 
输出 : k 个 秘 ， 使 平方 误差 最 小 。 
方法 : 























(1) 任意 选择 k 个 对 象 作为 初始 的 簇 中 心 ; 
(2) repeat 





(3) 根据 与 每 个 中 心 的 距离 ， 将 每 个 对 象 赋 给 “最 近 ” 的 艇 ; 








(4) 重新 计算 每 个 簇 的 平均 值 ; 
(5) until 不 再 发 生变 化 
































图 8. 1 k-means 算法 
(p3497 ) 








8.4.1 典型 的 划分 方法 : k-Means 和 k-Medoids 











最 著名 也 是 最 常用 的 划分 方法 是 k-means，k-medoids 和 它们 的 变种 。 





基于 质心 〈centroid ) 的 技术 : k-Means 方法 
k-means 算法 以 为 参数 ， 把 n 个 对 象 分 为 k 








个 偶 


艇 ， 


以 使 类 内 

















似 度 最 低 。 相 似 度 的 计算 根据 一 个 能 中 对 象 的 平均 值 〈 被 看 作 徐 的 重心 ) 来 进行 。 


“k-means 算法 是 怎样 工作 的 ? ”k-means 算法 的 处 理 
每 个 对 象 初 始 地 代表 了 一 个 簇 中 心 。 对 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 簇 
近 的 复 。 然 后 重新 计算 每 个 复 的 平均 值 。 这 个 过 程 不 断 重 复 ， 直 到 诊 

























































































方 误差 准则 被 采用 ， 其 定义 如 下 : 
(8. 18 p349 ? ) 























流程 如 下 。 首 先 ， 随 机 





pi 心 的 吕 








只 有 较 高 的 相似 度 ， 而 类 间 的 相 


地 选择 k 个 对 象 ， 


E 离 ， 将 它 赋 给 最 














则 函数 收 剑 。 有 代表 性 地 ， 平 


这 里 的 EE 是 数据 库 中 所 有 对 象 的 平方 误差 的 总 和 ，p 是 空间 中 的 点 ， 表 示 给 定 的 数据 对 象 ，mi 是 簇 


























Ci 的 平均 值 (p 和 mi 都 是 多 维 的 )。 这 个 准则 试图 使 生成 的 结果 秘 尽 可 能 的 紧 竣 和 独立 。 


























了 K-means 过 程 的 概述 。 

















明显 时 ， 它 的 效果 较 好 。 对 处 理 大 数据 集 ， 该 算法 是 相对 
































法 经 常 以 局 部 最 优 结束 。 















































这 个 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 k 个 划分 。 当 














图 8.1 给 








D 
口 











但 是 ，k-means 方法 只 有 在 簇 的 平均 值 被 定义 的 情况 下 才能 使 




















结果 艇 是 密集 的 ， 而 艇 与 艇 之 间 区 别 
可 伸缩 的 和 高 效率 的 ， 因 


] 为 它 的 复杂 度 是 
O (nktb)，n 是 所 有 对 象 的 数目 ，k 是 簇 的 数目 ，t 是 迭代 的 次 数 。 通 常 地 ，k<<n， 目 


| t<《<n。 这 个 算 














用 。 这 可 能 不 适用 于 茶 些 应 用 ， 





例如 涉及 有 分 类 属性 的 数据 。 要 求 用 户 必 须 事先 给 出 k( 要 生成 的 簇 的 数目 〉 可 以 算是 该 方法 的 一 
个 缺点 。K-means 方法 不 适合 于 发 现 非 凸 面 形状 的 徐 ， 或 者 大 小 差别 很 大 的 秘 。 而 且 ， 它 对 于 “ 噪 














例子 8.2 假设 有 一 个 分 布 在 空间 中 的 对 象 集合 ， 








如 图 





8.2 (a) 所 示 。 给 定 k=3， 即 





音 ” 和 孤立 点 数据 是 敏感 的 ， 少 量 的 该 类 数据 能 够 对 平均 值 产生 极 大 的 影响 。 























成 要 求 将 这 些 


对 象 聚 为 三 类 。 根 据 图 8. 1 中 的 算法 ， 我 们 任意 选择 三 个 对 象 作为 三 个 初始 的 簇 中 心 ， 簇 中 心 在 图 





























图 8. 2 4a) 中 虚线 所 描绘 的 图 形 。 





























这 样 的 分 组 会 改变 聚 类 中 心 ， 也 就 是 说 ， 每 个 聚 类 的 平均 值 会 根据 类 
这 些 新 的 聚 类 中 心 ， 对 象 被 重新 分 配 到 各 个 类 中 。 这 样 的 重 











的 轮廓 。 

















也 | 





























中 用 “+” 来 标注 。 根 据 与 禾 中 心 的 距离 ， 每 个 对 象 被 分 配给 最 近 的 一 个 复 。 这 样 的 分 布 形 成 了 如 





有 会 中 的 对 象 重新 计算 。 依 据 
新 分 配 形成 了 图 8. 2(b) 中 





虚线 所 描绘 














以 上 的 过 程 重复 , 产生 图 8. 2(c) 的 情况 。 最 后 ， 当 没有 对 象 的 重新 分 配 发 生 时 ， 处 到 














聚 类 的 结果 被 返回 。 








图 8. 2 基于 k-means 方法 的 一 组 对 象 的 聚 类 〔( 艇 





(p350 ? ) 


PpP 心 在 





图 





"用 “+” 来 标 六 





FE) 








EE 过程 结束 。 


k-mean 
的 策略 上 有 所 不 同 。 经 常会 产生 较 好 的 聚 类 结果 的 一 个 有 趣 策略 是 首 
数目 ， 及 找到 初始 的 簇 ， 然 后 用 迭代 的 重 定位 来 改进 
展 了 k-means 方法 ， 用 模式 来 代替 类 的 平均 值 ， 


定 结果 艇 的 数目 


k-mean 








s 方法 有 









































s 方法 的 一 个 变 体 是 k-modes 











采用 新 的 相 寞 4 
和 k-modes 方法 可 以 综合 起 来 处 理 有 数值 类 型 和 

EM (Expectation Maximization， 期 
它 不 把 对 象 分 配给 一 个 确定 的 簇 ， 而 是 根据 对 象 与 艇 之 ij 
说 ， 在 簇 之 间 没 有 严格 的 界限 。 FF 
增强 k-means 算法 的 可 扩展 性 
必须 在 主 存 中 的 区 域 ， 可 废弃 的 区 域 





“与 样 
JOAN 


缩 的 区 域 ， 




















很 多 变种 。 它 们 可 能 在 初始 k 个 平均 值 的 选择 ， 相 有 异 度 的 计算 ， 计 算 聚 类 平均 值 














方法 ， 它 扩 


聚 类 结 


先 采 用 层次 的 自 底 向 上 算法 决 
果 。 



































生 度 量 方法 来 处 理 分 类 性 质 的 数据 , 采用 基于 频率 的 方法 来 修改 聚 类 的 模式 。K-means 
属性 的 数据 ， 这 就 是 k-prototypes 方法 。 





分 类 类 型 
































望 最 大 ) 算法 以 


另 一 种 方式 对 kr 








eans 方法 进行 了 扩展 。 





























因此 ， 新 的 








司 隶 属 关 系 发 生 的 概率 来 分 派对 象 。 换 句 话 
加 权 的 度量 值 来 计算 。 














“均值 基 了 



































2 22” 是 






































最 近 提 出 的 一 种 方法 是 识别 数据 的 三 种 区 域 : 可 以 压 
。 如 果 一 个 对 象 与 某 个 复 的 隶属 关系 是 确定 的 ， 则 

















它 是 可 废弃 的 , 。 如 果 一 个 对 象 不 是 可 废弃 的 ， 但 属于 某 个 较 小 的 子 徐 ， 那 么 它 是 可 压缩 的 。 一 个 


数据 结构 
个 对 象 既 不 是 可 废弃 的 ， 又 不 是 可 压缩 的 ， 那 它 前 





聚 类 特征 〈clustering feature) 用 来 汇总 那些 
应 该 被 保存 在 主 存 中 。 为 了 达 至 








可 废弃 的 或 者 可 压缩 的 对 象 。 如 果 一 


1 可 扩展 性 ， 这 个 























迭代 的 算法 只 包含 可 压缩 的 对 象 和 必须 在 主 存 中 的 对 象 的 聚 类 特征 ， 从 而 将 一 个 基于 二 级 存储 的 算 























法 变 成 了 基于 主 存 的 算法 。 


























既然 一 个 有 极 大 值 
大 家 可 能 想 知 道 ，“ 女 


月 EM 


























基于 有 代表 性 的 对 象 的 技术 : k-medoids 方法 
的 对 象 可 能 相当 程度 上 扭曲 数据 的 分 布 , k-means 算法 对 于 孤立 点 是 敏感 的 。 
I 何 修 改 这 个 算法 来 消除 这 种 敏感 牧 








F? 名 
记 。 o 











不 采用 簇 中 对 象 的 平均 值 作为 参 






































照 点 ， 可 以 选用 簇 中 位 置 最 中 心 的 对 象 ， 即 medoid。 这 样 划分 方法 仍然 是 基于 最 小 化 所 有 对 象 与 其 


参照 点 之 间 的 相 异 度 之 不 


据 其 与 人 
类 的 质量 。 


异 度 。 为 了 判定 一 个 非 代 表 对 象 0 











k-medoids 聚 类 





























聚 类 结果 的 质 





[下 











I 的 原则 来 执行 的 。 























J 这 是 k-medoids 方法 的 基础 。 
算法 的 基本 策略 是 ， 首先 为 每 个 簇 随意 选择 选择 一 个 代表 对 象 ， 剩 余 的 对 象 根 


























对 象 p， 下 面 的 四 种 情况 被 考虑 : 

















































































































目 . 二 目 . >I2 合生 




















\ 表 对 象 的 距离 分 配给 最 近 的 一 个 禾 。 然 后 反复 地 用 非 代 表 对 和 象 来 百代 代表 对 象 ， 以 改进 肾 
j 一 个 代价 函数 来 估算 ， 该 函数 评估 了 对 象 与 其 参照 对 象 之 间 的 平均 相 
个 代表 对 象 0; 的 好 的 替代 ， 对 于 每 一 个 非 代 表 























国 第 一 种 情况 : p 当前 隶属 于 代表 对 象 0;。 如 果 0 被 Qum 所 代替 ， 且 p 离 01: 最 近 ，i 关 j， 那 么 
p 被 重新 分 配给 01。 
四 第 二 种 情况 : p 当前 隶属 于 代表 对 象 0;。 如 果 0 被 0em 代 符 ， 且 p 离 0 最 近 ， 那 么 p 被 重 
新 分 配给 Onaom。 
四 ”第 三 种 情况 ，p 当前 隶属 于 0: ，i 径 j。 如 果 0; 被 0 代替 ， 而 p 仍然 离 0, 最近， 那么 对 象 的 
隶属 不 发 生变 化 。 
国 第 四 种 情况 : p 当前 隶属 于 0,，i 短 j。 如 果 0 被 0iwm 代 蔡 ， 且 p 离 0sum 最 近 ， 那 么 p 被 重新 
分 配给 Orsoon。 
1. 重新 分 配给 0，2.， 重新 分 配给 Onam 3. 不 发 生变 化 4.， 重新 分 配给 Onam 
数据 对 象 
簇 中 心 
替代 前 
替代 后 
8. 3 k-medoids 聚 类 代价 函数 的 四 种 情况 . (P352 ?) 
图 8. 3 描述 了 上 述 的 四 种 情况 。 每 当 重 新 分 配 发 生 时 ，square-error 所 产生 的 差别 对 代价 函数 有 影 
响 。 因 此 ， 如 果 一 个 当前 的 代表 对 象 被 非 代 表 对 象 所 代替 ， 代 价 函 数 计算 square-error 值 所 产生 
的 差别 。 替 换 的 总 代价 是 所 有 非 代表 对 象 所 产生 的 代价 之 和 。 如 果 总 代价 是 负 的 ， 那 么 实际 的 











square-erro 
在 本 次 旬 代 
PAM (Partitioning around Medoids， 






































r 将 会 减 小 ，0i 可 以 被 Quam 蔡 代 。 如 果 总 代价 是 正 的 ， 则 当前 的 代表 对 象 是 可 接受 的 ， 
没有 变化 发 生 。 一 个 典型 的 k-medoids 算法 描述 在 








区 


8.4 中 给 出 。 











围绕 k-medoids 的 划分 ) 是 最 早 提出 的 k-medoids 算法 

















之 一 。 它 试图 对 n 
好 的 代表 对 象 。 所 有 可 
对 可 能 的 各 种 组 合 ， 
象 代 替 。 
样 的 计算 代价 相当 高 。 















































方法 比 k-means 方法 更 健壮 ， 这 是 








“哪个 方法 更 健壮 : k-means 或 者 k- 








因为 








edoids? ” 当 存 在 “噪音 ” 
medoid 不 象 平 均值 那么 容 



































个 对 象 给 出 k 个 划分 。 最 初 随机 选择 k 个 代表 对 象 后 ， 该 算法 反复 地 试图 











找 出 更 


能 的 对 象 对 被 分 析 ， 每 个 对 中 的 一 个 对 象 被 看 作 是 代表 对 象 ， 而 另 一 个 不 是 。 
古 算 聚 类 结果 的 质量 。 一 个 对 象 0; 被 可 以 产生 最 大 square-erro 
在 一 次 欠 代 中 产生 的 最 佳 对 象 的 集合 成 为 下 次 欠 代 的 代表 对 象 。 当 n 和 kk 的 


r 值 减少 的 对 
值 较 大 时 ， 这 








和 孤立 点 数据 时 ，k-medoids 
易 被 极端 数据 影响 。 但 是 ， 


k-medoids 方法 的 执行 代价 比 k-means 算法 高 。 此 外 这 两 种 方法 都 要 求 用 户 指定 结果 艇 的 数目 k。 





算法 : 
输入 : 
A 
4 ; 


方法 


k-medoids， 





























k 个 艇 ， 使 得 所 有 对 象 与 雁 


(1) 随机 选择 k 个 对 象 作为 初始 
(2) repeat 

(3) 
(4) 





结果 簇 的 数目 k， 包 含 n 个 对 象 的 数据 库 
最 近代 表 对 象 的 相 异 度 总 和 最 小 。 


的 代表 对 象 ; 





(5) 
(6) 如 果 S<0， 则 
(7) until 不 发 生变 化 






































指派 每 个 剩余 的 对 象 给 离 它 最 近 的 代表 对 象 所 代表 的 禾 ; 
随意 地 选择 一 个 非 代表 对 象 Owoom; 
计算 用 0am 人 代替 0; 的 总 代价 5; 
] Ouum 蔡 换 0， 形 成 新 的 k 个 代表 对 象 的 集合 ; 




















图 8. 4 k-medoids 算法 


(p353 ? ) 


8.4.2 大 规模 数据 库 中 的 划分 方法 : 从 k-medoids 到 CLARANS 








“k-medoids 算法 在 大 数据 集合 上 的 效率 如 何 ? ”典型 的 k-medoids 算法 ， 如 PAM， 对 小 的 数据 














集合 非常 有 效 ， 但 对 大 的 数据 集合 没有 良好 的 可 1 























基于 样本 的 方法 CLARA (Clustering LARge Applications ) 。 




















CLARA 的 主要 


思想 是 : 不 考虑 整个 数据 集合 ， 














缩 性 。 为 了 处 理 较 大 的 数据 集合 ， 可 以 采用 一 个 





选择 实际 数据 的 一 小 部 分 作为 数据 的 样本 。 然 


后 用 PAM 方法 从 样本 中 选择 代表 对 象 。 如 果 样 本 是 以 非常 随机 的 方式 选取 的 ， 它 应 当 足 以 代表 原 














来 的 数据 集合 。 从 ! 

















选 出 的 代表 对 象 很 可 能 与 从 整个 数据 集合 中 选 日 





据 集合 的 多 个 样本 ， 对 每 个 样本 应 





] PAM 算法 ， 


























返回 最 好 的 聚 类 结果 作为 输 昌 











的 非常 近似 。CLARA 抽取 数 
。 如 同人 们 希望 的 ， 


CLARA 能 处 理 比 PAM 更 大 的 数据 集合 。 每 步 兴 代 的 复杂 度 现在 是 O(ks”+k(n-k)), s 是 样本 的 大 小 ， 





k 是 筷 的 数目 ， 而 n 是 所 有 对 象 的 总 数 。CLARA 的 有 效 ; 
寻找 最 佳 的 k 个 代表 对 象 ， 而 CLARA 在 抽取 的 样本 中 
果 任 何 取样 得 到 的 代表 对 象 不 属于 最 佳 的 代表 对 象 ，CLARA 不 能 得 到 最 佳 聚 类 结 
对 象 O; 是 最 佳 的 k 个 代表 对 象 之 一 ， 但 它 在 取样 的 时 候 没 有 被 选择 ， 导 





的 数据 集合 中 























最 佳 聚 类 。 这 是 为 了 效率 而 做 的 折 中 


整个 数据 集合 的 一 个 好 的 聚 类 。 





“我 们 怎样 改进 CLARA 的 聚 类 质量 和 可 伸缩 性 ? ”作为 kmedoids 类 的 算法 ， 





Tr 














生 取 决 于 样本 的 大 小 。 要 注意 PAM 在 给 定 
寻找 最 佳 的 K 个 代表 对 象 。 如 
果 。 人 例如， 如果 
b CLARA 将 永远 不 能 找到 

















。 如 果 样 本 发 生 偏 斜 ， 基 于 样本 的 一 个 好 的 聚 类 不 一 定 代 表 了 














CLARANS(Clustering Large Application based upon RANdomized Search) 将 采样 技术 和 PAM 结合 起 








来 。 但 是 , 与 CLARA 不 
每 个 阶段 有 一 个 
程 可 以 被 描述 为 对 一 个 图 























被 用 户 定义 的 一 个 参数 加 以 限制 。 如 
居 节 点 ， 处 理 过 程 重新 ] 








值 ，CLARANS 移 到 该 邻 
找到 了 一 个 























同 ，CLARANS 没有 在 人 
固定 的 样本 ， 而 CLARANS 在 搜索 的 每 一 步 带 一 定 随 机 怕 
的 每 个 节点 是 一 个 潜在 的 解 ， 也 就 
合 。 在 替换 了 一 个 代表 对 象 后 得 到 的 聚 类 结果 被 称 为 当前 聚 类 结果 的 邻居 。 随 机 尝试 的 邻居 的 数目 
果 一 个 更 好 的 邻居 被 发 现 ， 也 就 是 说 它 有 更 小 的 square-error 
开始 。 否 则 当前 的 聚 类 达到 了 一 个 
局 部 最 优 ，CLARANS 从 随机 选择 的 节点 开始 寻找 新 的 局 部 最 优 。 


的 搜索 ， 图 




















FE 一 给 定 的 时 间 局 限于 任 一 样本 。CLARA 在 搜索 的 
地 抽取 一 个 样本 。 聚 类 过 


i 是 说 ，k 个 代表 对 象 的 集 



































实验 显示 CLARANS 比 PAM 和 CLARA 更 有 效 。 通 过 采用 一 个 轮 














定义 该 对 象 在 多 大 程度 上 真 的 属于 某 个 艇 ， 能 够 发 现 最 “自然 的 ”的 弓 























部 最 优 。 如 果 














郭 系 数 一 一 对 象 的 一 个 属性 ， 








i 果 簇 数 日 。CLARANS 能 够 


理 


探测 孤立 点 。 但 是 CLARANS 算法 的 计算 复杂 度 大 约 是 O02 )，n 是 对 象 的 数目 。 而 


质量 取决 于 所 用 的 抽样 方法 。 通 过 采用 空间 数据 结构 ， 例 如 R*-tree， 及 一 些 调节 技术 ，CLARANS 









































的 性 能 可 以 得 到 进一步 的 提高 。 





8.5 层次 方法 


一 个 层次 的 聚 类 方法 将 数据 对 象 组 成 一 棵 聚 类 的 树 。 根 据 
(Cagglomerative) 和 分 裂 (divisive) 层 次 
或 分 裂 被 执行 ， 就 不 能 修正 。 


形成 ， 
的 


究 集 











民 次 聚 类 方法 的 聚 类 质 
pb 于 羡 王 


层次 的 聚 类 方法 可 以 进一步 分 为 


三 


YE 了 
凝聚 


受 限于 如 下 特点 : 











层次 分 解 是 











底 向 上 ， 




















还 





i 
聚 类 。 


是 




















口 Ura > 
， 它 的 聚 类 


顶 向 下 


一 个 纯粹 




















八 全 二 
Ma 














里 














二 | 矶 有 下 


凝聚 的 





而 











8.5 在 对 象 集合 {a,b,c,d,e} 上 的 凝聚 和 分 烈 


8.5.1 凝聚 的 和 分 裂 的 层次 聚 类 


一 般 来 说 ， 有 两 种 类 型 的 


例 8.3 


在 凝聚 或 者 分 裂 的 层次 聚 类 方法 中 ， 用 户 
四 个 广泛 采用 的 簇 间 明 
E 离 : dmin(Ci,C)) = min pecip'eci |[p-p’| 


最 小 
最 大 昌 





凝聚 的 层次 聚 类 ; 








层次 聚 类 和 从 代 重 定位 方法 的 集成 。 


分 裂 的 


民 次 





取 洲 


聚 类 (p355 ?) 


层次 聚 类 方法 : 
这 种 自 底 向 上 的 策略 


侯 








首先 将 每 个 对 象 作为 一 个 




















为 越 来 越 大 的 艇 ， 直 至 








I 所 有 的 对 象 都 在 一 个 簇 


























次 聚 类 方法 








分 裂 的 层次 聚 类 : 这 种 自 项 向 下 的 策略 与 











个 秘 中 ， 然 后 逐渐 细 














属于 这 一 类 ， 它 们 只 是 在 复 间 术 





日 似 度 的 定义 上 有 所 不 同 





1/ 颖 ， 
P ， 或 者 某 个 终结 条 件 被 满足 。 


o 





最 近 的 研 





然后 合并 这 些 原子 入 











凝聚 的 层次 聚 类 不 同 ， 


A 











件 ， 例 如 达到 了 茶 个 希望 的 簇 数 


目 ， 或 者 两 个 最 近 的 簇 之 间 的 

















的 层次 


图 8.5 描述 了 一 个 凝聚 








AGNES 将 每 个 对 象 作为 一 个 簇 ， 


Ci 中 的 一 个 对 象 和 簇 Cs 中 的 一 个 对 象 之 间 的 
是 一 个 single-link 方法 ， 以 








的 ，C1 和 C, 可 能 被 合并 。 这 





聚 类 
聚 类 算法 DIANA(Divisive ANAlysis) 在 一 个 包含 五 个 对 象 的 数据 集合 上 的 处 
步 步 地 合并 。 
距离 是 所 有 属于 不 同 复 的 对 象 | 























绝 大 多 数 层 























它 首先 将 所 有 对 象 置 于 
分 为 越 来 越 小 的 禾 ， 直 到 每 个 对 象 自 成 一 冬 ， 或 者 达到 了 某 个 终结 条 
E 离 超过 了 某 个 阔 值 。 





算法 AGENES(Agglomerative NESting) 和 一 个 分 裂 的 层次 








里 过 程 。 




















然后 这 些 类 被 





据 某 些 准 由 









































表 ， 簇 间 的 相似 度 由 两 个 艇 ! 
进行 直 



































到 所 有 的 对 象 最 终 合 并 形成 一 
在 DIANA 方法 的 处 理 过 程 中 ， 所 有 的 对 象 初始 都 放 在 一 个 饺 中 。 根 据 一 些 原则 ， 这 


个 马 。 








个 禾 被 分 裂 ， 簇 的 分 裂 过 程 反复 进行 直到 最 终 每 个 新 的 簇 只 包含 








E 离 度量 方法 如 





BE 办: dnax(CibCi) = max pecipeaj 























































































































能 定义 希望 得 到 的 禾 数 











下 ， 


|p-P | 























a 
所 有 对 象 代 


最 初 ， 
列 如 ， 如 果 艇 








a 
E 离 : 





最 小 





上 LIA 

















距离 最 近 的 数据 点 间 的 相似 度 来 确定 。 聚 类 的 合 ;# 





个 对 象 。 
目 作 为 一 个 结束 条 件 。 












































过 程 反 复 









































平均 值 的 距离 : dyean(C,C) =| mi- mi| 

平均 距离 : dave(CiCi) = 于 osci 二 wsci|p-p)| 
这 里 |p-p’| 是 两 个 对 象 p 和 p’ 之 间 的 距离 ，mi 是 复 Ci 的 平均 值 ， 而 m 是 复 Cj 中 对 象 的 数目 。 

“层次 聚 类 的 困难 之 处 在 那里 ? ”层次 聚 类 方法 尽管 简单 ， 但 经 常会 遇 到 合并 或 分 裂 点 选择 的 
困难 。 这 样 的 决定 是 非常 关键 的 ， 因 为 一 旦 一 组 对 象 被 合并 或 者 分 裂 ， 下 一 步 的 处 理 将 在 新 生成 的 
徐 上 进行 。 已 做 的 处 理 不 能 被 撤消 ， 聚 类 之 间 也 不 能 交换 对 象 。 如 果 在 某 一 步 没 有 很 好 地 选择 合 3 
或 分 裂 的 决定 ， 可 能 会 导致 低 质 量 的 聚 类 结果 。 而 且 ， 这 种 聚 类 方法 不 具有 很 好 的 可 伸缩 性 ， 因 为 





合并 或 分 裂 的 决定 需要 检查 和 估算 大 量 的 对 象 或 簇 。 


改进 














层次 方法 的 从 类 质量 的 一 个 有 希望 的 方向 是 将 























他 的 聚 类 技术 进行 集成 ， 形 成 


多 阶段 聚 类 。 


对 象 进 行 





在 下 面 的 章 
层次 划分 ， 然 后 采 肯 


介 经 


节 中 人 
其 他 的 聚 类 算法 对 



































用 固 
三 个 方法 ROCK 基于 簇 














定数 目的 代表 对 象 来 
间 的 互 ] 





A 
个 簇 ， 
Va 


生 进行 合并 。 第 





表示 每 



































第 一 级 








图 8。6 CF 树 结 构 


了 一 些 这 类 的 方法 。 
聚 类 结果 进行 求 精 。 
的 分 数 向 着 聚 类 ， 
四 个 方法 Chameleon 在 层次 聚 类 中 发 现 动态 模型 。 


EA 


然后 依据 一 个 定义 








和 
bp 








有 一 个 方法 称 为 BIRCH， 它 首先 















































j 树 结构 对 








第 二 个 方法 称 为 CURE， 它 采 
心 对 它 介 














] 进 行 收缩 。 第 


8. 5. 2 BIRCH: 利用 层次 方法 的 平衡 迭代 约 减 和 聚 类 (Balanced Iterative Reducing and Clustering 


Using Hierarchies ) 








和 人 








BITCH 是 一 个 


5 不 口 





的 层次 聚 类 方法 。 它 引入 了 两 个 概 














们 用 对 











概括 聚 类 描述 。 这 些 结构 町 

















人 





的 CF 定义 如 下 
CF = (N,LS,SS), 





某 





这 日 





EN 是 子 类 中 点 的 数目 ，LS (? ) 是 NN 个 点 


4 


站 助 聚 类 方法 在 大 型 数据 库 
寺 增 量 或 动态 聚 类 非常 有 效 。 让 我 们 详细 讨论 一 下 上 面 提 到 的 结构 。 
组 ， 对 对 象 子 类 的 信息 给 出 了 总 结 性 描述 。 假 设 





个 子 类 


念 : 聚 类 特征 和 


聚 类 特 
:取得 高 的 速度 和 人 


一 个 聚 类 























(8.19 p357 











征 树 (CF tree)， 它 
缩 性 。BIRCH 方法 
特征 (CF) 是 一 个 三 元 
F 有 NN 个 d 维 的 点 或 对 象 {o1}， 则 该 子 类 





2) 


的 线性 和 〔 即 ?)，SS 是 数据 点 的 平方 和 〔 即 ? )。 


案 类 特征 是 对 给 定子 类 的 统计 描述， 从 统计 学 的 观点 来 看 ， 子 类 的 第 零 个 ， 第 一 个 ， 及 第 二 个 





所 有 的 对 象 。 





一 个 CF 树 是 高 度 3 


要 素 。 它 记录 了 计算 聚 类 和 有 效 利 


























存储 的 关键 数 

















义 ， 树 ! 








给 | 


子 数目 ， 而 阔 值 参数 
大 小 。 
























































“BIRCH 算法 是 怎样 工作 的 ? ” 它 包 括 两 个 
阶段 一 : BIRCH 扫描 数据 库 ， 建 立 一 个 初始 存放 了 
试图 保留 数据 内 在 的 聚 类 结构 。 





阶段 二 : BIRCH 采用 


在 阶段 一 ， 随 着 对 象 被 插入 ，CEF 树 被 动态 地 构造 。 所 以 这 个 方法 支持 增 量 聚 类 。 一 个 对 象 被 插 
的 子 类 的 直径 大 于 阅 值 ， 那 么 该 0 
入 后 ， 关 于 该 对 象 的 信息 向 着 树 根 传递 。 通 过 修改 阔 值 ， 


入 到 最 近 的 叶子 条 
子 节点 及 可 能 有 其 





蘑 个 


目 〈 子 类 )。 如 果 在 撮 
也 节点 被 分 裂 。 新 对 象 操 





聚 




















CF 树 的 大 小 可 以 改变 。 丸 
E 建 过 程 从 | 





放 重 建 CF 树 。 习 

















日 树 的 叶子 节点 建造 一 











对 象 。 这 类 似 卫 





式 规则 和 方法 ， 通 过 额 多 
二 被 采用 任何 聚 类 算法 ， 




















F B+ 树 构建 中 的 插入 





和 节点 分 裂 。 
描 来 处 理 下 
的 划分 方法 ,。 














的 数据 扫 
例如 典型 


po 




















BIRCH 试图 利用 可 











的 VO 时 间 。BIRCH 采用 了 一 种 多 阶段 


的 资源 来 4 





成 最 好 的 
聚 类 



































或 多 遍 的 额外 扫 
的 数目 


























[2 


BIRCH 的 有 效 尾 














但 是 , 既然 CF 树 的 每 个 节点 由 于 大 小 限制 只 能 包含 有 限 数 目 
日 户 所 认为 的 一 个 自然 聚 类 。 而 且 


上京 


于 月 
径 或 直径 的 概念 来 控 种 











可 以 进 





步 地 改进 聚 类 质量 
































类 的 边界 。 


技术 : 数据 集合 的 单 遍 扫 
。 这 个 算法 的 记 


值 ， 因 





『 衡 的 树 ， 它 为 层次 聚 类 存储 了 聚 类 特征 。 图 8.6 给 
的 非 叶 节点 有 后 代 或 “孩子 ” 它们 存储 了 其 孩子 的 CF 
类 信息 。 一 个 CF 树 有 两 个 参数 : 分支 





因子 B， 和 赣 值 T。 分 支 因 
了 存储 在 树 的 叶子 节点 中 的 子 类 的 最 大 














阶段 : 


fi 入 后 存储 在 叶子 节点 


个 新 树 。 这 检 
因 山 
立 点 和 





E, 为 了 





果 。 给 





改进 CF 树 





为 它 概括 了 关于 子 类 的 信息 ， 而 不 是 存储 





BT 











让 4 入 


位 








a 
。 这 

















类 算法 对 CF 树 的 叶 节 点 进行 聚 类 。 
































个 例子 。 根 据 定 
的 总 和 ， 即 概括 了 关于 其 孩子 的 聚 
子 定义 了 每 个 非 叶 节点 的 最 大 孩 
两 个 参数 影 








向 了 结果 树 的 





六 内 存 的 CF 树 ， 它 可 以 被 看 作 数 据 的 多 层 压 缩 ， 





LTf 


一 

















I 果 存 储 CF 树 需 要 的 内 存 大 小 大 于 主 存 的 大 小 , 可 以 定义 一 个 较 小 的 阐 值 ， 














f ， 重 建树 的 过 程 不 需要 习 





， 只 需 读 








建树 


一 次 数据 。 
的 质量 。CF 树 建 好 后 ， 可 以 在 阶段 


E 读 所 有 的 
采用 一 些 启发 


kj 




















定 有 限 的 主 存 ， 一 个 如 
间 产 生 了 


于 














号 
x 





的 考虑 是 最 小 











取 洲 














E 如 何 ? ”实验 显示 该 算法 具有 对 对 象 数 目的 线性 伸缩 人 














| 算 复杂 人 








个 基本 的 
FE 是 O(n)， 这 里 的 n 是 对 象 


生 , 及 较 好 的 聚 类 质 


2 和 大， 

















aI 
里 。 





的 条 目 , 一 个 CF 树 节点 并 不 总 是 对 应 

















|， 如 果 簇 不 是 球形 的 ，BIRCH 不 能 很 好 二 





也 工作 尝 








因为 它 用 了 半 


8. S. 3 CURE: 利用 代表 点 聚 类 (clustering using representative) 


CURE 解决 了 偏好 球形 和 相似 大 十 [ 
次 聚 类 算法 ， 该 算法 选择 了 位 于 基于 质心 和 基于 代表 对 象 方法 之 间 的 中 间 
对 象 来 
方式 产生 : 首先 选择 艇 中 分 散 的 对 象 ， 
动 它们 。 在 


于 控制 孤立 点 也 
大 的 徐 。 对 于 大 规模 数据 库 ， 它 也 具有 
了 随机 取样 和 划分 两 种 方法 的 组 合 : 


个 划分 被 部 分 聚 类 。 


例 8.4 





， 从 源 数 据 对 象 


nn 记忆 一 


(p360 


图 8.7 月 























绝 大 多 数 聚 类 算法 或 者 擅长 











处 





里 球 形 和 相似 大 小 的 聚 类 ， 
\ 的 问题 ， 在 处 理 孤 立 点 





或 者 在 存在 扳 立 点 时 变 得 比较 脆弱 。 














上 也 
































更 加 健壮 。CURE 采用 了 一 种 新 的 层 
策略 。 它 不 用 单个 质心 或 


























个 禾 ， 而 是 选择 了 

















法 的 每 








影响 。 


针对 大 数据 库 ，CURE 采用 


这 些 结果 簇 





下 面 的 步骤 











将 样本 S 划分 为 一 组 分 块 。 
对 每 个 划分 局 部 地 聚 类 。 














通过 随机 取样 吻 除 孤立 点 。 如 果 


数据 空间 中 国定 





























数目 的 


表 性 的 点 。 





有 代 





然后 根据 一 个 特定 的 分 数 或 收缩 因 
步 ， 有 最 近 距 离 的 代表 点 对 《〈 每 个 点 来 自 于 一 个 不 同 的 艇 ) 的 两 个 禾 被 合并 。 
每 个 饼 有 多 于 一 个 的 代表 点 使 得 CURE 可 以 适应 非 球形 上 





























一 个 簇 的 代表 点 通过 如 下 
子 向 徐 中 心 “ 收 缩 ” 或 移 











的 几何 形状 。 簇 的 收缩 或 凝聚 可 以 有 助 
因此 ，CURE 对 孤立 点 的 处 理 更 加 健壮 


， 而 且 能 够 识别 非 球形 和 大 小 变化 较 














良好 的 伸 














然后 被 聚 类 产生 








i 述 了 CURE 算法 的 核心 : 
中 抽取 一 个 随机 样本 S。 


缩 性 ， 而 且 没 








希望 的 结果 。 











对 
簇 中 心 移动 。 这 些 点 























让 我 们 来 看 一 个 例子 。 











所 形成 的 局 部 聚 类 结果 被 虚线 标 出 。 每 个 簇 代 表 
产生 图 8.7(c) 中 实 线 所 


的 聚 类 ， 
收缩 或 凝聚 。 
分 为 两 个 禾 ， 











? ) 








日 CURE 对 一 组 对 象 进行 聚 类 。 





























局 部 的 秘 进 行 聚 类 。 落 在 每 个 新 形成 的 篮 中 的 代表 点 根据 用 户 定义 的 一 个 收缩 因 
述 和 捕捉 到 了 簇 的 形状 。 
.用 相应 的 簇 标签 来 标记 数据 。 


假设 有 一 组 点 (或 对 象 ) 位 于 一 个 长 方形 的 区 域 。 图 8.7(a) 
这 些 对 象 被 分 为 两 个 部 分 , 每 个 部 分 分 别 基 了 





有 牺牲 聚 类 质量 。 


一 个 随机 样本 首先 被 划分 ， 每 

















个 复 增 长 得 大 慢 ， 就 去 掉 它 。 





子 a 收缩 或 向 





述 了 这 些 对 象 的 一 个 随机 样本 。 
































最 小 平均 距离 进行 局 部 聚 类 。 如 图 








8.7(b) 所 示 ， 





[2 














十 十 
出 的 两 个 复 。 每 个 新 的 复 通 过 朝 复 中 心 移动 其 代表 点 进行 
这 些 代 表 点 描述 了 每 个 簇 的 形状 。 这 样 ， 排 除了 孤立 点 后 ， 初 始 的 对 象 被 划 
如 图 8.7(d) 所 示 。 


?9 





标记 。 这 些 局 部 聚 类 结果 被 进一步 





(a) 对 象 的 一 个 随机 样本 。(b) 对 象 被 划分 和 局 部 聚 类 。 





每 个 禾 的 代表 点 被 “+” 标 记 。(c) 局 部 从 类 被 进一步 地 谷类 。 对 每 个 新 禾 ， 代 表 点 向 驴 中 心 收缩 


或 凝聚 。 








集合 的 互 连 性 与 
定义 为 两 个 马 间 交 


(d) 最 后 的 结果 簇 是 非 


球形 的 。 


在 孤立 点 存在 的 情况 下 ，CURE 可 以 产生 高 





算法 要 求 整个 数据 库 的 一 遍 扫描 。 
参数 的 敏感 度 如 何 ， 例 如 相 
一 些 参数 变化 可 能 




















、\ 旺 Z 


影响 聚 类 质 











邻接 (c 








质量 的 聚 类 ， 








三 
里 


二 和 








给 定 n 个 对 象 ，CURE 的 复杂 度 是 O Cn)。“CURE 对 
本 大 小 ， 希 望 的 聚 类 的 数目 ， 及 收缩 因 


支持 复杂 形状 和 不 同 大 小 的 聚 类 。 该 
] 户 给 出 的 
子 a? ”敏感 度 分 析 显 示 ， 尽 管 



































民 次 聚 


生 模 型 相 比较 来 度量 两 个 秘 的 相似 度 。 两 个 秘 Cl 和 C2 的 互 连 性 被 

















换 名 话说 ， 篮 间 相似 度 是 基于 来 





-2 有- 


JU 


























ROCK 























聚 类 算法 。 


















































一 般 来 说 ， 参 数 设 置 确实 对 聚 类 结果 有 显著 的 影响 。 
CURE 不 处 理 分 类 属性 。ROCK 是 一 个 可 选 的 凝聚 的 
用 户 定义 的 互 连 1 
oss link) 的 数目 ，1ink (py p?) 是 两 个 点 pt 和 pj 共同 的 邻 
不 同 簇 而 有 相同 邻居 的 点 的 数目 。 

民 据 相似 度 阔 值 和 共同 邻居 的 概念 从 给 定 的 数据 相似 度 抢 阵 构建 一 个 稀疏 的 图 
在 这 个 稀疏 图 上 运行 一 个 层次 











类 算法 ， 适 用 于 分 类 属性 。 











它 通过 将 
































居 的 数目 。 














， 然后 


8.5.4 Chameleon (变色 龙 ) : 一 个 利用 动态 模型 的 层次 聚 类 算法 





chameleon 是 一 个 在 


= 站 
刁 次 聚 类 











采用 动态 模型 的 聚 类 算法 。 在 它 的 聚 类 过 程 中 ， 如 果 两 个 秘 间 








的 方案 忽略 了 关于 两 个 不 同 禾 ， 
性 ， 却 忽 


的 
合并 过 程 有 利 
据 


Et 
来 确 




















I 互 连 性 和 近似 度 与 簇 内 部 对 象 间 的 互 连 性 和 近似 度 高 度 相 关 ， 则 合并 这 两 个 艇 。 基 于 动态 模型 的 





















































于 自然 的 和 相似 的 聚 类 的 发 现 ， 而 且 只 要 定义 了 相似 度 函数 就 可 应 用 于 所 有 类 型 的 数 














Chameleon 的 产生 是 基于 对 两 个 层次 聚 类 算法 CURE 和 ROCK 的 缺点 的 观察 。CURE 及 其 相关 











二 



































的 对 象 的 互 连 性 的 信息 , 而 ROCK 及 其 相关 的 方案 强调 对 象 间 互 连 











各 了 关于 对 象 间 近 似 度 的 信息 。 





























“chameleon 怎样 工作 的 呢 ? ”图 8.8 中 描述 了 chameleon 的 主要 思想 。Chameleon 首先 通过 一 









































的 内 部 特征 。 


数据 集 








ba 









































定 最 相似 Ef 


构造 稀 朴 图 












































个 图 划分 算法 将 数据 对 象 聚 类 为 大 量 相对 较 小 的 子 类 ， 然 后 用 一 个 凝聚 的 层次 聚 类 算法 通过 反复 地 
合并 子 类 来 找到 真正 的 结果 艇 。 
的 子 类 。 这 样 它 不 依赖 于 一 个 静态 的 ， 用 户 提供 的 模型 ， 能 够 自动 地 适应 被 合并 的 艇 








它 既 孝 虑 了 互 连 性 ， 又 考虑 了 艇 间 的 近似 度 ， 特 别 是 篮 内 部 的 特征 ， 





























k 个 最 近 的 邻居 图 最 终 的 艇 




















光 














划分 图 合并 图 




















8.8 chameleon: 基于 K 个 最 近 的 邻居 和 动态 建 模 的 层次 聚 类 。 见 [KHK99] (p361 ?) 








下 面 我 们 详细 讨论 chameleon 算法 。 如 图 8.8 所 示 ，chameleon 基于 通常 采用 的 k 个 最 近 的 邻居 
和 方法 来 描述 它 的 对 象 。K 个 最 近 的 邻居 图 中 的 每 个 点 代表 一 个 数据 对 和 象 ， 如 果 一 个 对 和 象 是 男 一 个 
对 象 的 k 个 最 类 似 的 对 象 之 一 
捉 邻 域 的 概念 
义 范 围 相 对 狭 罕 











在 这 两 个 点 对象 ) 之 间 存 在 一 条 边 。K 个 最 近邻 居 图 Gk 动态 地 











: 一 个 对 象 的 领域 半径 被 对 象 所 在 区 域 的 密度 所 决定 。 在 一 个 密集 区 域 ， 邻 域 的 定 
; 在 一 个 稀 玻 区 域 , 它 的 定义 范围 相对 较 宽 。 与 采用 基于 密度 的 全 局 邻 域 方法 相 比 ， 





























如 DBSCAN (在 8.6 节 中 描述 )， 该 方法 能 产生 更 自然 的 聚 类 结果 。 而 且 ， 区 域 的 密度 作为 边 的 权 


日 











重 被 记录 下 来 。 就 是 说 ， 一 个 密集 区 域 的 边 趋向 于 比 稀 玻 区 域 的 边 有 更 大 的 权重 。 








Chameleon 通过 两 个 艇 的 相对 互 连 性 RI (Ci，Cj) 和 相对 近似 性 RC (Ci，Cj) 来 决定 艇 间 的 相 
似 度 : 
加 ”如果 两 个 徐 Ci 和 Cj 之 间 的 相对 互 连 性 RI (Ci, Gj) 已 经 针对 两 个 簇 的 内 部 互 连 性 进行 标准 化 ， 


则 称 为 Ci 和 Cj 之 间 的 绝对 互联 性 ， 即 ， 


( 8.20 p362 ?) 


这 里 ECici, 是 包含 Ci 和 Cj 的 簇 必须 切断 的 边 的 数目 ， 以 便 该 饼 分 裂 为 Ci 和 Cj。 类 似 地 ， 
































ECa (或 ECa) 是 它 的 最 小 等 分 线 的 大 小 〈 即 将 图 划分 为 两 个 大 致 相等 的 部 分 需要 切断 的 边 的 加 权 

总 和 ) 

加 ”如果 两 个 饼 Ci 和 Gj 之 间 的 相对 封闭 性 已 经 针 Ci 和 Cj 的 内 部 封闭 性 进行 标准 化 , 则 RC(Ci,Cj) 
称 为 Ci 和 Cj 之 间 的 绝对 封闭 性 。 它 的 定义 如 下 : 


(8. 





21 p362?) 

















这 里 (? ) 是 连接 Ci 和 Cj 节点 的 边 的 平均 权重 ，(? ) 是 Ci (或 Gj) 的 最 小 等 分 线 的 边 的 平 
均 权 重 。 














可 以 看 出 Chameleon 跟 CURE 和 DBSCAN 相 比 ， 在 发 现 高 质量 的 任意 形状 的 聚 类 结果 方面 有 




















8.6 基于 密度 的 方法 


为 了 发 现 人 





F 意 形状 的 聚 类 结 











更 强 的 能 力 。 但 是 在 最 坏 的 情况 下 ， 高 维 数据 的 处 理 代价 可 能 对 n 个 对 象 需要 O(n ) 的 时 间 。 














果 ， 提 出 了 基于 密度 的 聚 类 方法 。 这 类 方法 将 艇 看 作 是 数据 空间 中 























低 密度 区 域 分 割 











的 高 密度 对 象 区 域 。 


8.6.1 DBSCAN: 一 个 基于 密度 和 高 密度 的 连结 区 域 的 聚 类 算法 


; 云 。 


状 的 聚 





明 。 
国 
加 


密度 可 达 性 是 直接 密度 可 达 届 
可 达 的 。 不 过 ， 密 度 相连 怕 





区 











例 8. 
国 
国 
图 


一 个 


为 是 


DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是 一 个 基于 密度 的 聚 类 









































































































































该 算法 将 具有 足够 高 密度 的 区 域 划 分 为 复 ， 并 可 以 在 带 有 “噪音 ”的 空间 数据 库 中 发 现任 意 形 
聚 类 。 它 定义 簇 为 密度 相连 的 点 的 最 大 集合 。 

基于 密度 的 到 类 的 基本 想法 涉及 一 些 新 的 定义 。 我 们 先 给 出 这 些 定义 ， 然 后 用 一 个 例子 加 以 说 
一 个 给 定 对 象 周围 半径 ge 内 的 区 域 称 为 该 对 象 的 s - 邻 域 。 

如 果 一 个 对 象 的 - 邻 域 至 少 包含 最 小 数目 MinPts 的 对 象 ， 那 么 该 对 象 称 为 核心 对 象 。 
给 定 一 个 对 象 集合 D， 如 果 p 是 在 q 的 s- 邻 域内 ， 而 q 是 一 个 核心 对 象 ， 我 们 说 对 象 p 从 对 象 
q 出 发 是 直接 密度 可 达 的 ,。 

如 果 存 在 一 个 对 象 链 pi,p2,…,pn， Pi=q， pn=p， 对 pis D, 1<i<n, pint 是 从 pi 关于 es 和 MinPts 
直接 密度 可 达 的 ， 则 对 象 p 是 从 对 象 q 关于 s 和 MinPts 密度 可 达 的 (density-reachable)。 





对 








8.9 在 基于 密度 的 聚 类 中 密度 可 达 和 密度 相连 。 























的 传递 闭 包 ， 这 种 关系 是 非 对 称 
FE 是 一 个 对 称 的 关系 。 



































见 [EKSX96] (p364 


如 果 对 象 集合 D 中 存在 一 个 对 象 0， 使 得 对 象 p 和 qd 是 从 o 关于 s 和 MinPts 密度 可 达 的 ， 那 么 
象 p 和 9q 是 关于 s 和 MinPts 密度 相连 的 (density-connected)。 











的 。 只 有 核心 对 象 之 间 是 相互 密度 


7) 


5 考虑 图 8.9， 给 定 s 为 圆 的 半径 ，MinPts=3。 基 于 上 述 的 定义 : 
在 被 标记 的 点 中 ，M，P，O， 及 R 是 核心 对 象 ， 因 











为 它们 在 e- 领 域内 包含 了 至 少 三 


个 对 象 。 

















Q 是 从 M 直 接 密度 可 达 的 。M 是 从 P 直接 密度 可 达 的 ， 反 之 亦 然 。 






































因为 Q 


=} 
十，P 


是 从 M 直 




















并 不 是 从 Q 密度 可 达 的 ， 





接 密度 可 达 的 ，M 是 从 P 直接 密度 可 达 的 ， 所 以 Q 是 从 P 间接 密度 可 达 的 ， 但 








因为 Q 不 是 一 个 核心 对 象 。 





而 0 是 从 R 密度 可 达 的 。 


0，R 和 S 都 是 





基于 密度 的 能 是 基于 密度 可 达 性 的 最 大 的 密度 相连 对 象 的 集合 。 


6 品 癌 
噪音 





“DBSCAN 如 何 进行 聚 类 ? ”DBSCAN 通 i 


密度 互 连 的 。 














过 检查 数据 库 中 每 个 点 的 s- 邻 域 来 寻找 聚 

















类 似 地 ，R 和 Ss 是 从 0 密度 可 达 的 ， 


包含 在 任何 篮 中 的 对 象 被 认 





不 





类 。 





如 果 


一 个 点 p 的 ge- 邻 域 包含 多 于 MinPts 个 点 ， 则 创建 一 个 以 p 作为 核心 对 象 的 新 秘 。DBSCAN 然后 反复 


地 寻找 从 这 些 核 心 对 象 直接 密度 可 达 的 对 象 ， 这 个 过 程 可 和 外 
可 以 被 添加 到 任何 禾 时 ， 该 过 程 
DBSCAN 的 可 


的 点 


计算 复杂 度 是 0 Cn')。 该 算法 对 有 





同时 





如 果 采 用 空间 索引 ， 




















将 与 








Ns 





结束 。 














涉及 几 个 密度 可 达 艇 的 合 3 


| 算 复杂 度 是 0 Cnlogn)， 这 里 n 是 数据 库 中 对 象 的 数目 
日 户 定义 的 参数 是 敏感 的 , DBSCAN 在 下 面 的 章节 中 会 进 一 
个 基于 密度 的 聚 类 算法 OPTICS 进行 比较 。 





。 当 没有 新 























。 和 否则 ， 
步 的 讨论 























Tc， 


8.6.2 OPTICS: 通过 对 象 排 序 识别 聚 类 结构 (Ordering Points to Identify the Clustering Structure) 














进行 
多 卓 


江 





尽管 DBSCAN (8.6.1 节 中 


隧 类 ， 它 仍然 








ES 
































也 聚 类 算法 存在 的 问题 。 
定 。 绝 大 多 数 算 法 对 参数 值 是 非常 敏感 的 : 六 
， 真 实 的 高 维 数据 集合 经 党 

为 了 解决 这 个 难题 ， 提 出 了 OPTICS 聚 类 分 析 方 法 。OPTICS 没有 显 式 地 产生 
析 计 算 一 个 簇 次 序 (cluster ordering )。 这 个 次 序 代表 了 数据 的 基 
类 结构 。 它 包含 了 信息 ， 等 同 于 从 一 个 广 域 的 参数 设置 所 获得 的 基于 密度 的 聚 类 。 


动 和 交互 的 聚 类 分 





述 的 基于 密度 的 聚 类 算法 ) 能 














各 选择 能 产生 可 接受 的 聚 类 结果 的 参数 值 的 责任 留 给 了 用 户 。 事 实 
的 数据 集合 而 言 ， 参数 的 设置 通常 是 依靠 经 验 ， 难 
没 置 的 细微 不 同 可 能 导致 差别 很 大 的 聚 类 结果 。 而 





对 于 真实 的 ， 高 维 









































民 据 给 定 输入 参数 es 和 MinPts 对 对 象 
上 ， 这 也 是 许 

































































分 布 不 均 ， 全 局 密度 











参数 不 能 刻画 其 





内 在 的 聚 类 结构 。 

















个 数据 集合 口 簇 ， 
于 密度 的 




















考察 DBSCAN， 我 们 可 以 看 到 ， 对 一 个 恒定 的 MinPts 值 ， 
民 据 较 低 密度 所 获得 的 密度 相连 的 集合 中 。 记 住 参数 s 是 距离 ， 
此 ， 为 了 生成 基于 密度 聚 类 的 集合 或 次 序 ， 我 们 可 以 扩展 
对 象 应 当 以 特定 的 顺序 来 处 理 。 
以 便 高 密度 的 聚 类 能 被 首先 完成 。 基 于 这 个 想法 ， 














类 结果 被 完全 包含 在 
因 
值 。 为 了 同时 构建 不 同 的 聚 类 ， 
达 的 对 象 ， 
离 (core-distance) 和 可 达 距 离 (reacha 
国 一 个 对 象 p 的 核心 

有 定义 。 


一 个 对 


才 象 q 关于 另 一 个 对 象 p 的 可 达 距 

































































距离 是 使 得 p 成 为 核心 对 象 的 最 4 




















bility-distance 














DBSCAN 算法 来 








每 个 对 象 需 
六 


关于 高 密度 的 〈《 即 较 小 的 s 值 


同时 处 理 一 
E。 这 个 次 序 选择 根据 最 小 的 e 值 密 
要 存储 两 个 值 

















它 是 邻 域 
组 距离 参 
度 























核心 


) 的 聚 
的 半径 。 


数 
可 





E 


\e。 如 果 p 不 是 核心 对 象 ，p 的 核心 距离 没 


E 离 是 p 的 核心 距离 和 p 与 gq 的 欧 几 里 得 距离 之 间 的 较 大 
值 。 如 果 p 不 是 一 个 核心 对 象 ，p 和 q 之 间 的 可 达 距 离 没有 定义 。 





p 的 核心 距离 可 达 距 离 ( 
可 达 距 离 ( 
图 8. 10 OPTICS 术语 。 见 [ABK99] (p366 9?) 











图 8. 10 描述 了 核心 距 
个 最 近 的 数据 对 象 之 间 的 距离 e?。 


例 8.6 























大 于 p 的 核心 距离 。 





“这 些 值 怎样 
心 距离 和 一 个 适当 
息 对 于 关于 小 于 
一 个 数据 集合 的 聚 类 次 序 可 以 被 图 
单 的 二 维 数据 集合 的 可 达 性 图 
据 的 聚 类 结构 的 方法 被 研究 。 




















的 可 达 距 离 。 






















































































使 用 ? ”0PTICS 算法 创建 了 数据 库 ! 
一 种 算法 被 提出 基于 OPTICS 产 和 9 
在 生成 该 次 序 中 采用 的 距离 s 的 任何 距离 s 的 基于 密度 的 聚 类 都 是 足够 的 。 
形 化 地 描述 ， 以 有 助 于 它 的 理解 。 例 如 ， 图 8. 11 是 一 个 简 


qd 关于 p 的 可 达 昌 
























































离 和 可 达 距 离 的 概念 。 假 设 e=6，MinPts=5。p 的 核心 虽 
E 离 是 p 的 核心 距离 〈 即 se:=3mm)， 因 
它 比 从 p 到 qi 的 欧 几 里 得 距离 要 大 。qs 关 于 p 的 可 达 距 离 是 从 p 到 qd 的 欧 几 














表 ， 它 给 出 了 数据 如 何 被 聚 类 的 概述 。 也 有 在 多 个 层次 上 观察 高 维 





可 达 距 离 

无 定义 

8. 11 OPTICS 中 的 簇 次 序 。 图 来 自 [ABK99]。 

由 于 OPTICS 算法 与 DBSCAN 在 结构 上 的 等 价 性 ,0PTICS 


























即 当 空间 索引 被 采 








8. 6. 3DENCLUE: 


DENCLUE (DENsity-based CLUstEring) 是 
要 基于 下 面 的 想法 : (1) 每 个 数据 点 的 影响 可 以 月 
为 影响 函数 (influence function ); 


据点 在 邻 域 内 的 影响 ， 被 称 
为 所 有 数据 点 的 影响 国 级 的 局 总 和 ; 





(3) 然 











， 复 杂 度 为 0 (nlongn)。 


基于 密度 分 布 函数 的 聚 类 
































个 基 








于 





组 密度 分 布 冰 数 的 
一 个 数学 函数 来 形式 化 地 模拟 ， 
间 的 整体 密度 可 以 被 模拟 


(2) 数据 空 








E 离 是 p 与 第 























里 得 距离 ， 











聚 类 算法 。 该 算法 主 


它 描述 了 一 个 


四 
为 
它 


对 象 的 一 个 次 序 ， 额 外 存储 了 每 个 对 象 的 核 
E 的 次 序 信 息 来 抽取 案 类 。 这 样 的 


数 


算法 具有 和 DBSCAN 相同 的 时 间 复 杂 度 ， 





数 


百 聚 类 可 以 通过 确定 密度 吸引 点 (density attractor) 来 得 到 ， 











这 里 的 密度 吸引 点 是 全 局 
假设 x 和 y 是 d 维特 征 


























Ct 


是 
fp (x) =fp (X, y) 
原则 上 ， 影 响 函数 可 以 是 一 个 人 





数 d(x，y) 应 当 是 自 反 的 和 对 称 的 ， 例 如 欧 儿 里 得 距离 


密度 函数 的 局 部 最 大 值 。 
空间 FI 中 的 对 象 , 数 
民 据 一 个 基本 的 影响 函数 fp 来 定义 的 : 














据 对 象 y 对 x 的 影响 函数 是 





(8.22 p367 ?) 








函数 (8.2.1 节 )。 


它 用 来 计算 一 个 方 波 影 


一 个 函数 fp:F' 一 R+0， 


F 意 的 函数 ， 它 由 茶 个 领域 内 的 两 个 对 象 之 问 的 路 高 来 决定 。 距离 函 


响 函 数 〈square wave influence function): 


fsquare (X, y) = 
或 者 一 个 高 斯 (Gaussian) 影响 函数 : 


(8.24 p367 ?) 
密度 
数据 集 方 波 











页 











(8.23 


p367 ?) 


Ea 
六 


高 斯 


8.12 对 一 个 2-D 数据 集 的 可 能 的 密度 函数 〈? p368) 


在 一 个 对 象 x (xEF") 上 的 密度 函数 被 定义 为 所 有 数据 点 的 影响 函数 的 总 和 。 给 定 n 个 对 象 ， 


D={x1, 
(8.25 p368 ?) 
例如 ， 根 据 高 其 
(8. 26 p368 ? ) 

















根据 密度 函数 ， 我 们 能 够 定义 该 函数 的 梯度 和 密度 吸引 点 (全 局 密度 函数 的 局 部 最 大 值 )。 
个 密度 吸引 点 x* 密 度 吸引 的 , 如 果 存 在 一 组 点 xo, x1, .…,Xk， X0=X，, Xk=X*, 对 0<I<k， 





个 点 x 是 被 


影响 函数 得 出 的 密度 函数 是 














xil 的 梯度 是 在 xi 的 方向 上 。 对 一 个 连续 的 ， 可 微 的 影响 函数 ， 一 个 用 梯度 指导 的 仆 山 算法 能 
计算 一 组 数据 点 的 密度 吸引 点 。 图 8.12 显示 了 一 个 二 维 数据 集 ， 高 
心 定义 的 簇 (center-defined cluster) 和 任意 形状 的 簇 (arbitrary-shape cluster) 能 够 
民 据 密度 吸引 点 x* 中 心 定 义 的 聚 类 是 一 个 被 x* 密 度 吸 引 的 子 集 C， 在 x* 的 











基于 这 些 概念 ，: 
被 形式 化 地 定义 。 一 个 
































.Xn}cCFI， 在 x 上 的 密度 函数 定义 如 下 : 

















— 














日 来 





























斯 密度 函数 和 密度 吸引 点 。 





密度 函数 不 小 于 一 个 阔 值 5 ， 否则 〔 即 如 果 它 的 密度 函数 值 小 于 5 )， 它 被 认为 是 孤立 点 。 一 个 任 
度 吸 引 的 ， 有 不 小 于 阔 值 的 密度 函数 值 ， 从 每 个 区 域 到 另 
一 个 都 存在 一 条 路 径 P， 该 路 径 上 每 个 点 的 密度 函数 值 都 不 小 于 5 。 中 心 定义 和 任意 形状 的 簇 的 例 


意 形状 的 簇 是 一 组 子 集 C， 每 一 个 是 








子 在 图 8. 13 中 给 出 。 








区 














三 征 全 | 












































8.13 中 心 定 义 的 徐 《 顶 部 ) 和 任意 形状 的 徐 〈 底 部 ) 的 例子 。 见 [ 殉 98]. (p369 











“DENCLUE 与 其 它 聚 类 算法 相 比 有 什么 主要 的 优点 ? ”主要 有 如 下 一 些 : 〈1) 它 有 一 个 坚实 的 


数学 基础 ， 概 括 了 其 他 的 聚 类 方法 ， 包 括 基 


良好 的 聚 类 特性 。 








量 “ 噪 音 ” 的 数据 集合 ， 它 有 



































简洁 的 数学 描述 。(4) 它 使 
一 个 基于 树 的 存 取 结 构 来 管 
































] 了 网 格 单元 ， 
里 这 些 单元 ， 因 








ea 














这 个 方法 要 求 对 密度 参数 o 和 品 
类 结果 的 质量 。 


日 





8.7 基于 网 格 的 方法 


基于 网 格 的 聚 类 方法 采 









































些 单 








元 形成 了 网 格 结构 ， 所 有 




















处 理 时 间 独 立 于 数据 对 象 的 数目 ， 仅 依赖 于 量化 空间 中 每 一 维 
基于 网 格 方法 的 有 代表 性 的 例子 包括 STING， 它 利用 了 存储 在 网 格 单元 中 
WaveCluster， 它 用 一 种 小 波 转换 方法 来 聚 类 对 象 ;， CLIQUE， 














F 划 分 的 ， 层 次 
(3) 对 高 维 数据 集合 的 任意 形状 的 聚 类 ， 
只 保存 了 关于 实际 包含 数据 点 的 网 格 单元 的 信息 。 
此 比 一 些 有 影响 的 算法 (如 DD 
效 值 5 进行 仔细 的 选择 ， 























的 ， 及 基于 位 置 的 方法 。(2) 对 于 有 大 


它 给 出 了 
它 以 


BSCAN ) 速度 要 快 。 但 是 ， 








因为 这 样 的 参数 选择 可 能 显著 地 影响 聚 











一 个 多 分 辨 率 的 网 格 数据 结构 。 它 将 空间 量化 为 有 限 数 目的 单元 ， 这 











的 聚 类 操作 都 在 网 格 上 进行 。 这 种 方法 的 了 

















要 优点 是 处 理 速 度 快 ， 其 




















上 的 














元 数目 。 





的 统计 信息 ; 























已 是 在 高 


数据 空间 中 基于 网 格 和 密 














8.7.1 STING: 统计 信息 网 格 (STatistical INformation Grid) 





STING 是 一 个 基于 网 格 的 多 分 辨 率 聚 类 技术 ， 它 将 空间 








区 域 划分 为 矩形 单元 。 针 对 不 同 级 别 的 




















分 辨 率 ， 通 常 存 在 多 个 级 别 的 矩形 单元 ， 这 些 单元 形成 了 一 个 层次 结构 : 高 层 的 每 个 单元 被 划分 为 







































































































































































多 个 低 一 层 的 单元 。 关 于 每 个 网 格 单元 属性 的 统计 信息 《例如 平均 值 ， 最 大 值 ， 和 最 小 值 ) 被 预先 
计算 和 存储 。 这 些 统计 变量 可 以 方便 下 面 描述 的 查询 处 理 使 用 。 

图 8.14 显示 了 STING 聚 类 的 一 个 层次 结构 。 高 层 单元 的 统计 变量 可 以 很 容易 地 从 低层 单元 的 
变量 计算 得 到 。 这 些 统计 变量 包括 : 属性 无 关 的 变量 count; 属性 相关 的 变量 m 平 均值 )，s 标准 
偏差 ;，min〔 最 小 值 )，max〔 最 大 值 )， 以 及 该 单元 中 属性 值 遵 循 的 分 布 类 型 distribution， 例 如 正 


态 的 ， 均 衡 的 ， 指 数 的 ， 或 无 (如 
m，s，min， 和 max 
也 可 以 通过 假设 检验 来 玫 
型 ， 用 一 个 阔 值 过 滤 过 程 来 计算 。 如 果 低 层 单元 的 分 布 彼此 不 同 ， 阔 值 检验 失败 ， 高 层 


类 型 被 置 为 none。 




















个 单元 ， 我 
关 的 8 


“这 些 统计 信 ， 
先 ， 在 层次 结构 中 选 定 一 层 作 为 查询 处 理 的 3 
门 计算 置信 度 区 间 (或 者 





























直接 进行 


ft 和 
K 储 。 


计算 。 如 果 分 布 的 类 型 事先 知 
个 高 层 单元 的 分 布 类 型 












































果 分 布 未 知 )。 当 数据 被 装载 进 数据 库 ， 最 底层 单元 的 变 直 

















ECount, 


由 用 户 指定 ， 





3 


起 





，distribution 的 值 可 以 














可 以 基于 它 对 应 的 低层 单元 多 数 的 分 布 类 


























昌 怎 样 用 于 回答 查 ? 








? ”统计 变量 的 使 月 


昌 可 以 以 自 项 向 下 的 基 ] 











、 


元 的 分 布 














网 格 的 方法 。 首 











开始 点。 通常 ， 
十 算 其 概率 )， 






































含 少 申 














该 层 包 的 单元 。 对 当前 层次 的 每 





以 反映 该 单元 与 给 定 查 询 的 关联 程度 。 不 相 

















考虑 。 低 一 层 的 处 理 就 只 检查 剩余 的 相关 





元 就 不 





最 底层 。 此 日 
元 中 的 数据 ， 直 到 它们 满足 查询 要 求 。 
它 聚 类 


中 的 统计 信息 描述 了 单元 中 数据 的 与 查询 无 关 的 概要 信 


相关 站 


(2 














叶 ， 

















“与 其 





) 网 格 结构 


























查询 处 到 











图 8.14 STING 聚 类 





























如 果 查 询 要 求 被 满足 ， 那 么 返回 相关 单元 的 


个 


























算法 相 比 ，STING 有 什么 优点 ? ”STING 























有 利 了 





并 行 处 到 














三 | 


























EE 时间 是 O(g)， 这 里 g 是 最 底层 网 格 单元 的 数目 ， 
第 一 层 
第 (i-1) 层 
第 i 层 


的 层次 结构 (p371 ?) 




















元 。 这 个 处 到 


息 ， 所 以 基于 网 格 的 计算 是 独立 于 查询 的 ; 
和 增 量 更 新 ，(3) 该 方法 的 效率 很 高 ， STING 扫描 数据 库 一 次 来 计 
算 单 元 的 统计 信息 ， 因 此 产生 聚 类 的 时 间 复 杂 度 是 O(n)，n 是 对 象 的 数目 。 在 层次 结构 建立 后 ， 
通常 远 远 小 于 n。 


过 程 反复 进行 ， 直 到 
区 域 。 和 否则 ， 检 索 和 进一步 的 处 理 


达到 
落 在 





















































有 几 个 优点 : (1) 由 于 存储 在 每 个 单元 












































1 于 STING 采用 了 一 个 多 分 辩 率 的 方法 来 进行 聚 类 分 析 ，STING 聚 类 的 质量 取决 于 网 格 结构 














































































































的 最 底层 的 粒度 。 如 果 粒 度 比较 细 ， 处 理 的 代价 会 显著 增加 ; 但是， 如 果 网 格 结构 最 底层 的 粒度 太 
粗 ， 将 会 降低 聚 类 分 析 的 质量 。 而 且 ，STING 在 构建 一 个 父亲 单元 时 没有 考虑 孩子 单元 和 其 相 邻 单 
元 之 间 的 关系 。 因 此 ， 结 果 复 的 形状 是 〈isothetic)， 即 所 有 的 聚 类 边界 或 者 是 水 平 的 ， 或 者 是 紧 直 
的 ， 没 有 和 斜 的 分 界线 。 尽 管 该 技术 有 快速 的 处 理 速度 ， 但 可 能 降低 篮 的 质量 和 精确 性 ， 


8.7.2 WaveCluster: 采用 小 波 变换 聚 类 


WaveCluster 是 一 种 多 分 辨 率 的 
总 数据 ， 然 后 采用 一 种 小 波 变 换 来 变换 原始 的 特征 空间 ， 在 变换 后 的 空间 中 找到 密集 




















聚 类 


算法 , 它 首 先 通 过 在 





























数据 空间 上 强加 一 个 多 维 网 格 结构 来 汇 


区 域 。 





































































































































































































在 该 方法 中 ， 每 个 网 格 单元 汇总 了 一 组 映射 到 该 单元 中 的 点 的 信息 。 这 种 汇总 信息 适合 于 在 内 
存 中 进行 多 分 辨 率 小 波 变 换 使 用 ， 以 及 随后 的 聚 类 分 析 。 

“什么 是 小 波 变换 ? ”小 波 变换 是 一 种 信号 处 理 技术 ， 它 将 一 个 信和 号 分 解 为 不 同 频率 的 子 波 段 。 
通过 应 用 一 维 小 波 变 换 n 次， 小波 模型 可 以 应 用 于 nm 维 信号 。 在 进行 小 波 变换 时 ， 数 据 被 变换 以 在 
不 同 的 分 辨 率 层 次 保留 对 象 间 的 相对 距离 。 这 使 得 数据 的 自然 聚 类 变 得 更 加 容易 区 别 。 通 过 在 新 的 
空间 中 寻找 高 密度 区 域 ， 可 以 确定 聚 类 。 小 波 变换 在 第 三 音 中 也 进行 了 讨论 ， 它 们 用 于 通过 压缩 来 
缩减 数据 。 对 该 技术 的 参考 文献 在 文献 目录 中 列 出 。 

“为 什么 小 波 变 换 对 聚 类 是 有 用 的 ? ” 它 主要 有 如 下 的 优点 : 

国 它 提供 了 没有 监控 的 聚 类 。 它 采用 了 hat-shape 过 滤 ， 强 调 点 密集 的 区 域 ， 而 忽视 在 密集 区 域外 

的 较 弱 的 信息 。 这 样 ， 在 原始 特征 空间 中 的 密集 区 域 成 为 了 附近 点 的 吸引 点 (attractor)， 距离 

较 远 的 点 成 为 抑制 点 〈inhibitor)。 这 意味 着 数据 的 聚 类 自动 地 显示 出 来 ， 并 “清理 ”了 周围 的 


区 域 。 这 样 ， 小 波 变换 的 的 另 一 个 优点 





是 能 


够 自动 地 排 








除 孤 立 点 。 

















国 。 小波 变换 的 多 分 辨 率 特性 对 不 同 精确 性 层次 的 聚 类 探测 是 有 帮助 的 。 例 如 ,图 8.15 显 
二 维特 征 空间 的 例子 ， 图 中 的 每 个 点 代表 了 空间 数据 集中 一 个 对 象 的 属性 或 特征 值 。 



















































































示人 


图 8.16 显 


示 了 不 同 分 辩 率 的 小 波 变 换 结果 ， 从 细 的 尺度 到 粗 的 尺度 。 在 每 一 个 层次 ， 显 示 了 原始 数据 分 


解 得 到 的 四 个 子 波段 。 在 左上 像 限 中 显示 的 子 波段 强调 了 每 个 数据 点 周围 的 平均 邻 域 。 
F 边 。 左 下 像 限 中 的 子 波段 强调 了 垂直 边 ， 而 右 下 像 限 中 的 子 波 


限 内 的 子 波段 强调 了 数据 的 水 3 
段 强 调 了 转角 。 








国 ”基于 小 波 的 聚 类 速度 很 快 ， 计 算 复 杂 度 是 O Cn)， 这 日 





实现 可 以 并 行 化 。 





图 8.15 二 维特 征 空间 的 例子 (p373 


























( 低 分 辨 率 )。 见 [SCZ98]。 (p373 




































































7) 








2) 





WaveCluster 是 一 个 基于 网 格 和 密度 的 算法 。 它 符合 一 个 好 的 聚 类 算法 的 许多 要 求 : 它 
处 理 大 数据 集合 ， 发 现任 意 形状 的 艇 ,成 功 地 处 理 孤立 点 ， 对 于 输入 的 顺序 不 敏感 ， 不 要 











8.7.3 CLIQUE: 到 类 高 维 空间 


果 簇 的 数目 ， 邻 域 的 半径 等 输入 参数 的 定义 。 在 实验 分 析 中 ，WaveCluster 在 效率 和 聚 类 质 
BIRCH，CLARANS， 和 DBSCAN。 实 验 分 析 也 发 现 WaveCluster 能 够 处 至 














右上 像 














En 是 数据 库 中 对 象 的 数目 。 这 个 算法 的 





图 8.16 图 8.15 中 特征 空间 的 多 种 分 辩 紊 的 结果 : (a) 1 级 (高 分 辨 紊 ) (b)2 级 (中 分 辨 率 ) (c)3 级 


能 有 效 地 
求 诸如 结 























CLIQUE (Clustering In QUEst) 聚 类 算法 综合 了 基于 密度 和 基于 网 格 的 聚 类 方法 。 它 


数据 库 中 的 高 维 数据 的 聚 类 非常 有 效 。CLIQUE 的 核心 想法 ; 
数据 点 在 数据 空间 中 通常 





国 ”给 定 一 个 多 维 数 据点 的 大 集合 ， 



































不 是 均衡 分 布 的 。CLIQUE 


中 稀 玻 的 和 拥挤 的 区 域 ， 以 发 现 数据 集合 的 全 局 分 布 模式 。 
国 。 如果 一 个 单元 中 的 包含 的 数据 点 超过 了 茶 个 输入 参数 ， 则 该 单元 是 密集 的 。 在 CLIQUE 中 ， 相 
连 的 密集 单元 的 最 大 集合 定义 为 禾 。 









































“CLIQUE 如 何 工 作 ? ”CLIQUE 分 两 步 进行 多 维 聚 类 : 
第 一 步 ，CLIQUE 将 mn 维 数据 空间 划分 为 互 不 相交 的 长 方形 单元 ， 识 别 其 中 的 密集 单元 。 









































在 























图 8.17 关于 age 和 salary，vocation 


每 一 维 进行 。 例 如 ， 图 8.17 显示 了 关于 















































age 和 salary，vocation 维 的 密集 的 长 方形 单元 。 代 




















集 单元 的 相交 子 空间 形成 了 一 个 候选 搜索 空间 ， 其 中 可 能 存在 更 











高 维 度 的 密集 单元 。 






















































































(p375 ?) 


























维 的 密集 单元 ,代表 这 些 密集 单元 的 相交 子 空间 形成 了 
搜索 空间 ， 其 中 可 能 存在 更 高 维度 的 密集 单元 。 














“为 什么 CLIQUE 将 更 高 维 密集 单元 的 搜索 限制 在 子 空间 密集 单元 的 交集 中 ? ”这 种 





























































































































因此 ,我 们 可 以 从 〔k-1) 维 空 间 中 发 现 的 密集 单元 来 推断 k 维 空间 中 潜在 的 或 候选 





量 上 优 于 








最 多 20 维 的 数据 。 


对 于 大 型 


区 分 空间 











该 工作 对 
表 这 些 密 


一 个 候选 


候选 搜索 


空间 的 确定 采用 基于 关联 规则 挖掘 “中 的 先 验 特性 (apriori property)。 一 般 来 说 , 该 特性 在 搜索 空间 

















中 利用 数据 项 的 先 验 知识 以 裁减 空间 。CLIQUE 所 采用 的 特性 如 下 ， 如 果 一 个 k 维 单元 是 
那么 它 在 k-1 维 空间 上 的 投影 也 是 密集 的 。 也 就 是 说 ， 给 定 一 个 k 维 的 候选 密集 单元 ， 如 果 我 们 检 
碍 它 的 k-1 维 投影 单元 , 发 现任 何 一 个 不 是 密集 的 , 那么 我 们 知道 第 k 维 的 单元 也 不 可 能 是 密集 的 。 
































密集 的 ， 











y 





























常 ， 最 终 的 结果 空间 比 初始 空间 要 小 很 多 。 然 后 对 检查 密集 





在 第 二 步 ，CLIQUE 为 每 个 簇生 成 最 小 化 的 描述 。 对 每 个 禾 ， 它 确定 履 盖 相连 的 密集 


大 区 域 ， 然 后 确定 最 小 的 覆盖 。 
































元 决定 聚 类 。 























“CLIQUE 的 有 效 性 如 何 ? ” 因为 高 密度 的 聚 类 存在 于 那些 子 空间 中 ，CLIQUE 自动 
高 维 的 子 空间 ， 对 元 组 的 输入 顺序 不 敏感 ， 无 需 假 设 任 何 规范 的 数据 分 布 。 它 随 输 入 数据 的 大 小 线 
性 地 扩展 ， 当 数据 的 维 数 增加 时 具有 良好 的 可 扩展 性 。 但 是 ， 


























性 可 能 会 降低 。 



































! 于 方法 大 大 简化 ， 案 类 结 











”关联 规则 讨论 参见 第 6 章 。 特 别 地 ， 先 验 特性 的 描述 见 6.2.1 节 。 

















4 密集 





元 。 通 
单元 的 最 


地 发 现 最 





果 的 精确 


8.8 基于 模型 的 聚 类 方法 





基于 模型 的 聚 类 方 




















法 试图 




















于 这 样 的 假设 ， 数 据 是 
经 网 络 方法 。 在 本 节 ， 

















民 据 潜在 的 概率 分 布 生成 的 。 
对 每 种 方法 的 例子 都 给 出 了 











统计 学 方法 























优化 给 定 的 数据 和 某 些 数学 模型 之 间 的 适应 性 。 这 样 的 方法 经 常 是 基 























基于 模型 的 方法 主要 有 两 类 ， 统 计 学 方法 和 神 














述 。 














概念 聚 类 是 机 器 学 习 中 的 一 种 聚 类 方法 ， 给 出 一 组 未 标记 的 对 象 ， 它 产生 一 个 分 类 模式 。 与 传 


统 的 聚 类 不 同 ， 概 念 聚 
述 ， 即 每 组 对 象 代表 了 

















类 除了 确 








定 相似 对 象 的 分 组 外 ， 还 向 前 天 








一 个 概念 或 类 。 因 







































































此 ， 概 念 聚 类 是 


个 两 步 的 过 程 ; 




















了 一 步 ， 为 每 组 对 象 发 现 了 特征 
首先 ， 进 行 聚 类 ， 然 后 
















































































给 出 特征 描述 。 在 这 里 ， 聚 类 质量 不 再 只 是 单个 对 和 象 的 函数 ， 而 且 加 入 了 如 导出 的 概念 描述 的 简 8 
性 和 一 般 性 等 因素 。 

概念 聚 类 的 绝 大 多 数 方法 采用 了 统计 学 的 途径 ， 在 决定 概念 或 聚 类 时 使 用 概率 度量 。 概 率 描述 
于 描述 导出 的 概念 。 

8.18 (p377 ?) 

COBWEB 是 一 种 简单 ， 流 行 的 增 量 概念 聚 类 算法 。 它 的 输入 对 和 象 用 (分 类 属性 ， 值 来 描述 。 





COBWEB 以 一 个 分 类 树 的 形式 创建 层次 聚 类 。 
“但 是 ， 分 类 树 是 什么 ? 它 跟 决 策 树 一 样 吗 ? ” 
于 [Fis87]。 分 类 树 与 决策 树 不 同 。 分 类 树 中 的 每 个 节点 对 应 一 个 概念 ， 包含 该 概念 的 一 个 概率 描述 ， 














概述 了 被 分 在 该 节点 下 














的 对 象 。 概率 描述 包括 概念 的 概率 和 形 如 P(Ai= Vij| Ck) 的 条 件 概率 ， 这 里 

















Ai=Vij 是 一 对 属性 和 值 





，Ck 是 概念 类 

















树 茶 个 层次 上 的 兄弟 节点 形成 了 一 个 划分 。 为 了 用 分 类 树 对 一 个 对 象 进行 

















配 函 数 来 沿 着 最 佳 史 配 

















节点 的 路 径 在 树 中 同 下 移动 。 








(8.27 p378 ?) 
这 里 n 是 在 树 的 某 个 层 














COBWEB 采用 了 一 个 启发 式 估算 值 
用 (Category Utility，CU) 定义 如 下 : 




















次 上 形成 一 个 划分 {C1，C2， 





管 我 们 没有 空间 来 显示 








围 
类 成 员 的 预见 性 就 
加 ”概率 P (Ck|Ai=Vij 











这 个 
































越 大 。 
) 表示 类 间 相 异性 。 























该 属性 - 值 对 类 的 预见 性 就 越 大 。 














让 我 们 看 一 下 COBWEB 怎样 工作 。COBWEB 将 对 象 增 量 : 
对 象 , ”你 想 知 道 ,“COBWEB 怎样 决定 将 其 加 入 分 类 树 的 位 置 
向 下 ， 修 改 计 数 ， 寻 找 可 以 分 类 该 对 象 的 最 好 节点 。 这 个 决策 基于 将 对 象 临 时 置 于 每 个 节点 ， 








图 8。18 分 类 树 。 人 参见 [Fis87] 




















该 值 越 大 ，] 

















图 8.18 显示 了 一 棵 对 动物 数据 


述 符 ， 而 不 是 概率 

















的 分 类 树 ， 它 基 

















《计数 被 累计 和 存储 在 每 个 节点 中 ， 用 于 概率 的 计算 )。 这 就 
与 决策 树 不 同 ， 决 策 树 标 记分 支 ， 而 非 节 点 ， 而 且 采 用 好 辑 


述 符 “。 在 分 类 























分 类 效用 (category nutility) 来 指导 树 的 构建 。 


.…， Cn} 的 节点 ， 概 念 ， 或 “种 类 ”的 数 
E 导 过 程 ， 分 类 效用 奖励 类 内 相似 性 和 类 间 相 异性 
概率 P(Ai=VijlCk) 表 示 类 内 相似 性 。 该 值 越 大 ， 共 享 该 属性 - 值 的 类 成 员 比 例 越 大 ， 该 属性 - 值 对 


















































结果 划分 的 分 类 效用 。 产 生 最 高 分 类 效用 的 方案 应 当 是 一 个 好 的 选择 。 
“但 如 果 对 象 不 属于 树 中 现 有 的 任何 概念 怎么 办 ? 如 果 为 给 4 




















办 ? ”这 是 一 个 很 好 的 
所 产生 的 分 类 效用 。 
































分 类 ， 


地 加 入 到 分 类 树 
? ”COBWEB 沿 着 一 




















采用 了 一 个 部 分 匹 








分 类 效 





目 。 


江 








此 享 该 属性 - 值 却 在 其 它 类 中 的 对 象 就 越 少 ， 





中 。“ 给 定 一 个 新 的 
条 适当 的 路 径 
计算 






































的 对 象 新 建 一 个 节点 更 好 怎么 


想法 。 事 实 上 ，COBWEB 也 计算 为 给 定 对 象 创 建 一 个 新 的 节点 





一 个 已 存在 的 类 ， 或 者 
需要 用 户 提供 这 样 的 输 


























” 决策 树 描述 参见 第 7 章 。 


上 面 提 到 的 两 个 操作 符 对 于 对 











入 参数 。 








它 与 基于 现存 节点 的 计算 相 比较 。 根 据 产生 最 高 分 类 效用 的 划分 ， 对 象 被 置 于 
为 它 创建 一 个 新 类 。 要 注意 COBWEB 可 以 自动 














金正 划分 中 类 的 数目 。 它 不 
象 的 输入 顺序 非常 敏感 。 为 了 降低 它 对 输入 顺序 的 敏感 度 ， 








COBWEB 有 两 个 额外 的 操作 符 
好 的 候选 节点 可 以 考虑 合 3 为 单个 











、 



































一 个 合并 可 以 抵消 一 个 以 前 
“COBWEB 的 局 限 性 
个 属性 上 的 概率 分 布 是 彼 出 


和 的 分 分 烈 ， 








独立 的 。 





























类 的 概率 分 布 描述 使 得 更 者 

















和 存储 时 类 相 当 虽 


(merging) 和 和 分裂 (splitting )。 
。 此 外 ，COBWEB 考虑 在 现 有 的 分 类 中 分 裂 最 但 
的 孩子 。 这 些 决定 基于 分 类 效用 。 | 


是 什么 ? ”COBWEB 有 若干 
由 于 属性 


当 一 个 对 象 被 加 入 


























局 限 性 。 首 先 ， 它 基于 这 样 一 个 假 


























因为 时 间 和 空 





属性 





间 复 杂 度 不 只 依赖 于 



































而 且 取 决 于 每 个 属性 的 值 的 数目 ， 所 以 当 








属 ' 





3 





分 类 











斜 的 输 





CLASSIT 是 COBWEB 的 扩展 ， 用 以 处 理 





i 入 数据 不 是 高 度 平衡 的 ， 它 可 能 导致 时 间 


连续 





时 情况 尤其 严重 。 而 且 ，2 
和 空间 复杂 性 的 剧烈 变化 。 
性 数据 的 增 量 聚 类 。 它 在 每 个 节点 中 为 


























存 





平均 值 








和 标准 





局 差 )， 采 用 一 个 修正 的 分 类 效用 函数 ， 














诸 一 个 连续 的 正常 的 分 布 〔 即 
续 属性 上 的 一 个 整数 值 。 但是， 它 
































在 产业 界 ，AutoClass 是 一 个 比较 流行 的 聚 


与 COBWEB 存在 类 似 的 问题 
类 方法 ， 




















它 采用 Vivedih 统计 分 析 来 估算 











今 取 六 








数目 。 将 概 i 方法 应 用 到 数据 控 握 ， 








ASA A 


神经 网 络 方法 























计算 出 在 连 
因此 不 适用 于 聚 类 大 规模 的 数据 。 


， 两 个 最 


E 的 候选 节点 
村 使 得 COBWEB 执行 一 种 双向 的 搜索 ， 


例如 ， 





ee 


司 经 常 是 相关 的 ， 这 个 假设 并 不 总 是 成 立 。 此 外 ， 
中 。 


E 有 大 量 的 取 值 


的 数目 ， 
树 对 于 人 4 


PT 
| 





每 个 属性 











结果 簇 的 





需要 进行 额外 的 研究 。 参考 文献 中 给 出 了 相关 的 参考 书 














神经 网 络 方法 将 每 个 簇 描述 为 一 个 模型 (exemplar)。 模 型 作为 聚 类 的 “原型 ” 不 一 定 对 应 一 


个 特定 的 数据 例子 或 对 象 。 根 据 某 些 距离 函数 ， 新 的 对 象 可 以 被 分 本 
可 以 根据 该 簇 的 模型 的 
两 个 比较 著名 的 方法 。 第 
图 ， 这 两 种 方法 都 涉及 有 竞争 的 神经 得 
元 的 层次 结 tt ds 它们 以 一 种 “winner-take-all” 





配给 一 


个 秘 的 对 象 的 属性 
在 本 节 中 ， 我 们 讨论 神经 网 络 聚 类 的 
learning)， 第 二 个 是 自 组 织 特征 


有 竞争 学 习 采 用 了 若干 个 身 
















































































CL 给 模型 与 











E 来 预测 。 


属性 





一 个 是 


FE。 









































的 方式 对 系统 当前 处 理 的 对 象 进行 竞争 。 





名 





8.19 显示 了 





竞争 学 习 系 统 的 例子 。 每 个 圆 














个 单元 。 在 一 个 艇 
圈 表 示 )。 











中 获胜 的 单元 成 为 活动 的 (以 1 
各 层 之 间 的 连接 是 激发 (excitatory) 一 一 在 某 











es 活动 的 《 


EA 











最 相似 的 禾 


。 被 分 


竞争 学 习 (competitive 


圈 代 表 一 
以 空 的 圆 





























个 给 定 层次 中 的 单元 可 以 接收 来 














次 所 有 单元 的 输入 。 在 
簇 中 的 单元 彼此 竞争 ， 对 低 一 
在 任何 簇 中 只 有 一 个 单元 是 活动 的 。 获 胜 
能 够 对 与 当前 对 象 相似 或 一 样 

给 有 最 近 模 型 的 禾 






















































































层 中 活动 单元 的 布局 代表 了 高 一 
屋 的 输出 模式 做 出 反应 。 
的 单元 修正 它 与 秘 
的 对 象 做 出 较 强 的 反应 。 如 果 我 们 将 权重 看 作 定义 一 

















层 的 输入 模式 。 在 某 个 给 定 层次 
一 个 层次 内 的 联系 是 抑制 
中 其 它 单元 连接 上 的 权重 ， 























以 

















的 对 象 被 分 





层 3 抑制 簇 
激发 联接 


由 制 簇 





层 2 扣 
层 1 输入 单元 

输入 模式 
结构 。 





图 8.19 有 竞争 学 习 的 











在 聚 类 过 程 结束 时 ， 每 个 簇 可 以 被 看 作 一 个 新 的 “feather”， 它 发 现 了 对 象 的 一 些 规律 性 。 这 样 











其 层 数 可 以 任 


所 


2 
/区 、o 


结果 簇 的 数目 和 每 个 簇 ! 

















单元 的 数目 是 输入 参数 。 

















见 [RZ85] (p380 ?) 





产生 的 结果 复 可 以 被 看 作 一 个 低层 特征 向 高 层 特征 的 映射 。 


















































































































































Cinhibitory)， 以 便 


个 模型 ， 


自 低 一 层 
中 ， 一 

















便 未 来 它 
那么 新 








































































































对 于 织 特征 图 (self-organizing feature map，SOMs) , 聚 类 也 是 通过 若干 个 单元 竞争 当前 对 象 
来 进行 的 。 为 了 更 接近 输入 对 象 ， 获 胜 
单元 及 其 最 近 的 邻居 的 权重 进行 调整 。SOMs 假设 在 输入 对 象 中 存在 一 些 拓扑 结构 或 顺序 ， 单 元 将 
最 终 在 空间 中 呈现 这 种 结构 。 单 元 的 组 织 形成 一 个 特征 图 。SOMs 被 认为 类 似 于 大 脑 的 处 理 过 程 ， 
对 在 二 或 三 维 空间 中 直观 化 高 维 数据 是 有 用 的 。 

神经 网 络 聚 类 方法 与 实际 的 大 脑 处 理 有 很 强 的 理论 联系 。 由 于 较 长 的 处 理 时 间 和 数据 的 复杂 
性 ， 需 要 进行 进一步 的 研究 来 使 它 适 用 于 大 规模 的 数据 库 。 














8.9 孤立 点 (outlier) 分 析 





“孤立 点 是 什么 ? ”经 常 存在 一 些 数据 对 象 ， 它 们 不 符合 数据 的 一 般 模型 。 这 样 的 数据 对 象 被 
称 为 孤立 点 ， 它 们 与 数据 的 其 它 部 分 不 同 或 不 一 致 。 
孤立 点 可 能 是 度量 或 执行 错误 所 导致 的 。 例 如 ， 一 个 人 的 年 龄 为 -999 可 能 是 对 未 记录 的 年 龄 的 
缺 省 设置 所 产生 的 。 另 外 ， 孤 立 点 也 可 能 是 回 有 的 数据 可 变性 的 结果 。 例 如 ， 一 个 公司 的 首席 执行 





















































官 的 工资 自然 远 远 高 于 公司 其 他 雇员 的 工资 ， 成 为 一 个 孤立 点 。 



































许多 数据 挖掘 算法 试图 使 扳 立 点 的 影响 最 小 化 ， 或 者 排除 它们 。 但 是 由 于 一 个 人 的 “噪音 ”可 









































































































































子 问 题 : 


方法 来 挖掘 这 样 的 孤立 点 。 


















































(1) 定义 在 给 定 的 数据 集合 中 什么 样 的 数据 可 以 被 认为 是 不 一 臻 的，(2) 




















能 是 男 一 个 人 的 信和 号， 这 可 能 导致 重要 的 隐藏 信息 的 丢失 。 换 句 话说， 孤立 点 本 映 可 能 是 非常 重要 
的 ， 例 如 在 欺诈 探测 中 ， 孤 立 点 可 能 预示 着 欺诈 行为 。 这 样 ， 孤 立 点 探测 和 分 析 是 一 个 有 趣 的 数据 
挖掘 任务 ， 被 称 为 孤立 点 挖掘。 
孤立 点 挖 据 有 着 广泛 的 应 用 。 像 上 面 所 提 到 的 ， 它 能 用 于 欺诈 监测 ， 例 如 探测 不 寻常 的 信用 卡 
使 用 或 电信 服务 。 此 外 ， 它 在 市 场 分 析 中 可 用 于 确定 极 低 或 极 高 收入 的 客户 的 消费 行为 ， 或 者 在 医 
疗 分 析 中 用 于 发 现 对 多 种 治疗 方式 的 不 寻常 的 反应 。 
孤立 点 挖掘 可 以 描述 如 下 : 给 定 一 个 n 个 数据 点 或 对 象 的 集合 ， 及 预期 的 孤立 点 的 数目 k， 发 
现 与 剩余 的 数据 相 比 是 相 弄 的 ， 例 外 的 ， 或 不 一 致 的 头 K 个 对 象 。 孤 并 点 挖 











题 可 以 被 看 作 两 个 


四 问题 








找到 一 个 有 效 的 








孤立 点 的 定义 非常 重要 。 如 果 采 用 一 个 回归 模型 ,剩余 量 的 分 析 可 以 给 出 对 数据 “极端 ”的 很 
好 的 估计 。 但 是 ， 当 在 时 间 序 列 数 据 中 寻找 孤立 点 时 ， 它 们 可 能 隐藏 在 趋势 的 ， 周 期 性 的 ， 或 者 其 
他 循环 变化 中 ， 这 项 任务 非常 坏 手 。 当 分 析 多 维 数据 时 ， 不 是 任何 特别 的 一 个 ， 而 是 维 值 的 组 合 可 


















































能 是 极端 的 。 对 于 非 数值 型 的 数据 〈 如 分 类 数据 )， 孤 立 点 的 定义 要 求 特殊 的 考虑 。 














466 AT 

















才 














用 数据 直观 化 方法 来 进行 孤立 点 探测 如 何 ? ”你 可 能 想 知道 。 既 然 人 眼 在 发 现 数据 的 不 一 






































致 上 是 非常 迅速 和 有 效 的， 可 能 看 起 来 这 是 一 个 明显 的 选择 。 但 是 ， 这 不 适用 于 包含 周期 性 曲线 的 
数据 , 这 时 例外 的 值 可 能 正好 是 现实 中 有 效 的 值 。 数 据 直 观 化 方法 对 于 探测 有 很 多 分 类 属性 的 数据 ， 

















































































































或 高 维 数据 中 的 孤立 点 效率 很 低 ， 这 是 因为 人 眼 只 擅长 于 处 理 两 到 三 维 的 数值 型 数据 。 




















在 本 贡 : 




















， 我 们 探讨 基于 计算 机 的 孤立 点 探测 方法 。 它 们 可 以 被 分 为 三 类 ， 统 计 学 方法 ， 基 于 


距离 的 方法 ， 和 基于 偏 移 的 方法 ， 每 类 方法 都 会 进行 讨论 。 注 意 ， 当 聚 类 算法 将 孤立 点 作为 噪音 吻 
除 时 ， 它 们 可 以 被 修改 ， 包 括 孤 立 点 探测 作为 执行 的 副产品 。 一 般 说 来 ， 用 户 必 须 检 查 以 确定 发 现 


















































的 每 个 孤立 点 均 是 事实 上 的 孤立 点 。 


8.9.1 基 





于 统计 的 孤立 点 探测 























统计 的 方法 对 给 定 的 数据 集合 假设 了 一 个 分 布 或 概率 模型 (例如 一 个 正 态 分 布 )， 然 后 根据 模 


型 采用 不 一 至 


布 )， 分 











布 参数 《例如 平均 值 和 方差 ) 和 预期 的 孤立 点 的 数目 。 




















E 检 验 〈discordancy test) 来 确定 孤立 点 。 该 检验 要 求 数据 集 参 数 ( 例 如 假设 的 数据 分 


“不 一 致 性 检验 如 何 进行 ? “一 个 统计 学 的 不 一 致 性 检验 检查 两 个 假设 : 一 个 工作 假设 (working 


hypothesis) 和 一 个 替代 假设 〈alternative hypothesis)。 一 个 工作 假设 H 是 一 个 























个 数据 集合 来 自 一 个 初始 的 分 布 模型 FE， 即 


H: 


Oi EEF, I=1,， 2 ...» 了 


命题 : n 个 对 象 的 整 


如 果 没 有 显著 的 证 据 文 持 拒绝 这 个 假设 ， 它 就 被 保留 。 不 一 致 性 检验 验证 一 个 对 象 Oi 关于 分 布 F 


是 否 显著 地 大 《或 者 小 )。 依 据 可 用 的 关于 数据 的 知识 ， 不 同 的 统计 量 被 提出 来 用 
假设 某 个 统计 量 被 选择 用 于 不 一 致 性 检验 ， 对 象 Oi 的 该 统计 量 的 值 为 Yi， 然后 分 布 T 被 构建 。 显 
车 性 概率 SP〈Vi) =Prob(T>ViD 被 估算 。 如 果 某 个 SP(W) 是 足够 的 小 ， 那 么 Oi 是 不 一 致 的 ， 工 作假 
设 被 拒绝 。 蔡 代 假 设 被 采用 ， 它 声明 Oi 来 自 于 另 一 个 分 布 模型 G。 既 然 Oi 可 能 在 一 个 模型 下 是 六 


























































































































立 点 ， 在 另 一 个 模型 下 是 非常 有 效 的 值 ， 那 么 结果 非常 依赖 于 模型 的 选择 。 





















































的 。 有 许多 不 同 的 蔡 代 分 布 : 
国 国有 的 替代 分 布 (inherent alternative distribution ): 在 这 种 情况 下 ， 所 有 对 和 象 来 自分 布 F 的 工作 















































限 设 被 拒绝 ， 而 所 有 对 象 来 自 另 一 个 分 布 G 的 替代 假设 被 接受 : 








作 不 一 致 性 检验 。 

















蔡 代 分 布 在 决定 检验 的 能 力 〈 即 当 Oi 真 的 是 孤立 点 时 工作 假设 被 拒绝 的 概率 ) 上 是 非常 重要 




















H’: Oi EG, I= 1,2,.. 


(p383 ?) 





F 和 G 可 


| 
能 是 


生 孤 立 点 的 可 外 


混合 巷 


据 给 


代 分 布 (mixture alternative distribution ): 
孤立 点 ， 而 是 来 自 其 
H’: OiE (1- 和 A)F+XG, 
滑 动 将 代 分 布 (slippage a a 这 个 奉 代 分 布 声明 所 有 
定 的 参数 独立 地 来 自 初 始 的 模型 FE， 而 剩余 的 对 象 是 来 自修 改过 的 下 的 独立 的 观察 ， 

















bE 性 。 





例如 ， 它 可 能 有 不 同 的 平均 值 


由 三 | 
混合 蔡 




















I (p383 ?2) 


三 } 














三 : 














F 的 参数 已 经 变化 了 。 


探测 孤立 点 有 两 类 基本 的 过 程 : 
者 所 有 被 怀疑 的 对 象 都 被 作为 孤立 点 对 符 ， 或 者 都 被 作为 一 致 的 而 接受 。 
该 过 程 的 一 个 例子 是 inside-out 过 程 。 
如 果 它 被 发 现 是 孤立 点 ， 那么 所 有 更 极端 的 值 都 被 认为 是 孤立 点 ; 
过 程 往往 比 block 过 程 更 为 有 效 。 


block 过 程 : 


连续 的 过 程 : 











象 首先 被 检验 。 
个 极端 的 对 象 被 检验 ， 依 次 类 推 。 这 个 


“在 孤立 点 探测 上 统计 学 方法 的 有 效 性 
性 的 ， 而 许多 数据 控 # 
数 的 知识 ， 例 如 数 ] 





si 



































它 的 主要 思想 是 : 




















E 如 何 ?” 一 个 主要 的 缺点 是 如 











图 问 题 要 求 在 多 维 空 














的 对 象 ( 除 了 少量 


最 不 可 


色 大 多 数 检 验 是 针对 














不 同 的 分 布 ， 或 者 是 参数 不 同 的 相同 分 布 。 对 G 分 布 的 形式 存在 约束 以 便 它 有 
或 者 离 差 .或 者 更 长 的 尾部 。 

代 分 布 认 为 不 一 致 的 值 不 是 分 布 中 的 
在 这 种 情况 下 ， 替 代 假设 























外 ) 杠 
这 个 








能 是 孤立 点 的 对 
否则 ， 下 一 




















有 个 属 








间 中 发 现 扳 立 点 。 而 且 ， 统 计 学 方法 要 求 关 于 数据 集合 参 
据 分 布 。 但 是 在 许多 情况 下 ， 数 据 分 布 可 能 是 未 知 的 。 当 没有 特定 的 检验 时 ， 统 





计 学 方法 不 能 确保 所 有 的 孤立 点 被 发 现 ， 或 者 观察 到 的 分 布 不 能 恰当 地 被 任何 标准 的 分 布 来 模拟 。 
8.9.2 基于 距离 的 孤立 点 探测 
为 了 解决 统计 学 方法 带 来 的 一 些 限制 ， 引 入 了 基于 距离 的 孤立 点 的 概念 。 





“什么 是 基 











距离 的 孤立 点 ? ”如 果 至 少数 据 集 合 S 中 对 象 的 p 部 分 与 对 象 o 的 距离 大 了 











对 象 o 是 一 个 














们 可 以 将 基于 距离 的 孤立 点 看 作 是 那些 





来 定义 的 。 


思想 


与 基于 



































基于 距离 的 带 参数 p 和 d 的 孤立 点 ， 即 DB(p,d)。 


统计 的 方法 
。 基 于 距离 的 孤立 点 探 
分 布 ， 及 选择 不 一 致 性 检验 所 需要 的 。 

对 许多 不 一 致 性 检验 来 说 ， 
例如 ， 如 果 离 平均 值 














没有 足够 邻居 的 对 象 ， 这 上 























相 比 ， 基 于 距离 的 天 
1 避免 了 过 多 的 计算 ， 


并 点 探测 归纳 了 














而 大 量 的 计算 正 


























如 果 一 个 对 象 o 根据 给 定 的 检验 








三 | 
征 











偏 


























i 差 3 或 更 大 









































时 





一 个 孤立 点 ， 那么 对 恰当 
的 对 象 被 认为 是 孤立 点 ，f 





六 d， 


换 句 话说 ， 不 依赖 于 统计 检验 ， 我 
的 邻居 是 基 导 
多 个 标准 分 布 的 不 一 致 性 检验 上 
是 使 观察 到 的 分 布 适 





E 给 定 对 象 的 距离 
的 


血 合 某 个 标准 














以 


定义 








a 全 





一 个 正 态 分 布 ， 那 么 这 个 定义 能 够 被 一 个 DB(0.9988.0.13 c ) 孤 立 点 所 概括 入。 
人 
基于 索引 的 算法 :给 定 一 个 数据 集合 ， 基 于 索引 的 算法 采用 多 维 索引 结构 ， 例 如 R 树 或 k-d 树 ， 
来 查找 每 个 对 象 o 在 半径 d 范围 内 的 信 〖 居 。 设 M 是 一 个 孤立 点 的 d 邻 域内 的 最 大 对 象 数 日 。 因 此 ， 














这 上 
是 ， 复 杂 度 估算 只 


仍 套 -循环 算法 : 




















基于 单元 


的 算法 。 它 的 复杂 s 度 是 O(c* +n)， 过 
间 被 划分 为 边 长 等 于 





的 厚度 是 (p385 ?)。 该 算法 





Ek 是 维 数 ，n 是 数据 集合 中 对 象 的 数目 。 
(考虑 了 搜索 时 间 ， 即 使 建造 索引 的 任务 本 身 就 是 计算 密 


嵌 套 -循环 算法 和 基于 索引 的 算法 有 相同 的 计算 复杂 度 ， 但 
建 ， 试 图 最 小 化 IO 的 次 数 。 它 把 内 存 的 缓冲 空间 分 为 两 半 ， 把 数据 集合 分 为 若 


精心 选择 逻辑 块 装 入 每 个 缓冲 区 域 的 顺序 ，LIO 效率 能 够 改善 。 





C(cell-based) 的 算法 : 为 了 避免 O(n ) 的 计算 复杂 











”参数 p 和 d 使 月 


























且 对 象 o 的 M+1 个 邻居 被 发 现 ，o 践 不 是 弧 立 点 。 这 个 算法 在 最 坏 民 




















青 况 





下 
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LU 








的 。 


















































































































































是 唯 





-的 。) 半 径 为 0.13 


它 避 免 了 索引 




















的 复杂 s 度 为 OUern2)， 
k 增加 时 ， 基 于 索引 的 算法 具有 良好 的 扩展 性 。 


W229 








但 


结构 的 构 
F 个 逻辑 块 。 通 过 






































































































































s 度 ， 为 驻 留 内 存 的 数据 集合 开发 了 基于 单元 

这 里 c 是 依赖 于 单元 数目 的 常数 ，k 是 维 数 。 在 该 方法 中 ， 数 据 空 

F d/2(?) 的 单元 。 每 个 单元 有 两 层 围绕 着 。 第 一 层 的 厚度 是 一 个 单元 ， 而 第 二 层 
个 单元 一 个 单元 地 对 孤立 点 记 数 ， 而 不 是 一 个 对 象 一 个 对 象 地 进行 

有 正 态 曲 线 概率 函数 加 以 计算 ， 以 满足 概率 条 件 (。 ， 即 (。。。) 。 (注意 其 解决 方案 不 

人 









































对 一 个 给 定 的 单元 ， 它 累计 三 个 计数 单元 中 对 象 的 数目 ， 单 元 和 第 一 层 中 对 象 的 数目 ， 及 单元 
和 两 个 层次 中 的 对 象 的 数目 。 让 我 们 把 这 些 计 数 分 别称 为 cell_count ，cell_+_1_layer_count， 
cell + 2_ layers_count。 
“在 该 方法 中 怎样 确定 孤立 点 ?” 设 M 是 一 个 孤立 点 的 d 邻 域 中 可 能 存在 的 孤立 点 的 最 大 数目 。 
加 ”在 当前 单元 中 的 一 个 对 象 o 被 认为 是 孤立 点 ,， 仅 当 cell_+_1_layer_count 小 于 或 等 于 M。 如 果 这 
个 条 件 不 成 立 ， 那 么 该 单元 中 所 有 的 对 和 象 可 以 从 进一步 的 考察 中 移 走 ， 因 为 它们 不 可 能 是 孤立 
点 。 
加 ”如 果 cell_+_2_layers_count 小 于 或 等 于 M， 那 么 单元 中 所 有 的 对 象 被 认为 是 和 孤立 点 。 和 否则 ， 如 
果 这 个 计数 大 于 M， 那 么 单元 中 的 某 些 对 象 有 可 能 是 孤立 点 。 为 了 探测 这 些 孤 立 点 ， 一 个 对 象 
一 个 对 象 的 处 理 被 采用 ， 对 单元 中 的 每 个 对 象 o，o 的 第 二 层 中 的 对 象 被 检查 。 对 单元 中 的 对 
象 , 只 有 那些 d 邻 域内 有 不 超过 M 个 点 的 对 象 是 孤立 点 。 一 个 对 象 的 d 邻 域 由 这 个 对 象 的 单元 ， 
它 的 第 一 层 的 全 部 ， 和 它 的 第 二 层 的 部 分 组 成 。 






































































































































































































































一 个 该 算法 的 变形 是 关于 n 呈 线 性 的 ， 确 保 不 会 要 求 对 数据 集合 进行 超过 三 遍 的 扫描 。 它 可 以 
被 用 于 大 的 磁盘 驻 留 的 数据 集合 ， 但 对 于 高 维 数据 不 能 很 好 地 伸缩 。 





















































基于 距离 的 孤立 点 探测 要 求 用 户 设置 参数 p 和 d。 寻 找 这 些 参 数 的 合适 设置 可 能 涉及 多 次 的 试 
探 和 错误 。 

















8.9.3 基于 偏离 的 孤立 点 探测 


























基于 偏离 的 孤立 点 探测 (deviation-based outlier detection) 不 采用 统计 检验 或 基于 距离 的 度量 值 
来 确定 异常 对 象 。 相 反 ， 它 通过 检查 一 组 对 和 象 的 主要 特征 来 确定 孤立 点 。 与 给 出 的 描述 偏离 的 对 象 
被 认为 是 孤立 点 。 这 样 ， 该 方法 中 的 deviation 典型 地 用 于 指 孤 立 点 。 在 本 节 中 ， 我 们 研究 基于 偏离 
的 孤立 点 探测 的 两 种 技术 。 第 一 种 顺序 地 比较 一 个 集合 中 的 对 象 ， 而 第 二 种 采用 了 一 个 OLAP 数据 
立方 体 方法 。 


序列 异常 技术 
序列 异常 技术 (sequential exception technique) (模仿 了 人 类 从 一 系列 推测 类 似 的 对 象 中 识别 异 
常 对 象 的 方式 。 它 利用 了 隐 含 的 数据 元 余 。 给 定 n 个 对 象 的 集合 S， 它 建立 一 个 子 集合 的 序列 ， 
{S1,S2,.….,Sm}， 这 里 2<m<n， 满 足 
Sj-1 Sj,SjS (p386?) 
序列 中 子 集 合 间 的 相 异 度 被 估算 。 这 个 技术 引入 了 下 列 的 关键 术语 : 



























































































































































加 ”异常 集 (exception set): 它 是 偏离 或 孤立 点 的 集合 ， 被 定义 为 某 类 对 象 的 最 小 子 集 ， 这 些 对 象 的 
去 除 会 产生 剩余 集合 的 相 异 度 的 最 大 减少 。 

国 。 相 异 度 函 数 (dissimilarity function): 该 函数 不 要 求 对 象 之 间 的 度量 距离 。 它 可 以 是 满足 如 下 条 件 
的 任意 函数 : 当 给 定 一 组 对 象 时 ， 如 果 对 象 间 相 似 ， 返 值 就 较 小 。 对 象 间 的 相 异 度 越 大 ， 函 数 
返回 的 值 就 越 大 。 一 个 子 集 的 相 异 度 是 根据 序列 中 先 于 它 的 子 集 增 量 计算 的 。 给 定 一 个 n 个 对 
象 的 子 集 合 {x1,…,xsn}， 可 能 的 一 个 相 异 度 函 数 是 集合 中 对 象 的 方差 : 

(8. 28 p386? ) 

这 里 〈? ) 是 集合 中 个 数 的 平均 值 。 对 于 字符 串 ， 相 异 度 函数 可 能 是 模式 字符 串 的 形式 〈 例 

如 ， 包 含 通配符 )， 它 可 以 用 来 履 盖 目前 所 见 的 所 有 模式 。 当 禾 盖 Sj-1 中 所 有 字符 串 的 模式 不 能 和 

盖 在 Sj 中 ， 却 不 在 Sj-1 中 的 任 一 字符 串 时 ， 相 异 度 增加 。 

图 ”基数 函数 (cardinality function): 这 一 般 是 给 定 的 集合 中 对 象 的 数目 。 

加 ”平滑 因子 (smoothing factor): 这 是 一 个 为 序列 中 的 每 个 子 集 计算 的 函数 。 它 估算 从 原始 的 数据 集 
合 中 移 走 子 集合 可 以 带 来 的 相 异 度 的 降低 程度 。 该 值 由 集合 的 势 依 比例 决定 。 平 滑 因 子 值 最 大 


的 子 集 是 异常 集 。 



























































































































































































































































一 般 的 寻找 异常 集 的 任务 可 以 是 NP 完全 的 〈 即 ， 不 可 解 的 )。 一 个 顺序 的 方法 在 计算 上 是 可 行 
的 ， 能 够 用 一 个 线性 的 算法 实现 。 











主公 
口 





处 理 
滑 因 











“该 方法 如 何 工 作 ? ”不 考虑 其 补 集 来 估算 当前 子 集 的 相 蜡 度 ， 











该 算法 从 集合 中 选择 了 一 个 子 


的 序列 来 分 析 。 对 每 个 子 集合 ， 它 确定 其 与 序列 中 前 一 个 子 集 合 的 相 异 度 差异 。 
“序列 中 子 集 合 的 顺序 不 影响 结果 吗 ? ”为 了 减轻 输入 顺序 对 结果 的 任何 可 能 的 影响 ， 以 上 的 
过 程 可 以 被 重复 若干 次 ， 每 一 次 采用 子 集合 的 一 个 不 同 的 随机 顺序 。 在 所 有 的 迭代 中 有 最 大 平 



























































子 值 的 子 集合 成 为 异常 集 。 





OLAP 数据 立方 体 技术 


孤立 点 探测 的 OLAP 方法 在 大 

















第 三 
一 种 
进行 
为 是 
择 对 
和 常 ， 





相 比 


中 每 个 项 目的 销售 额 ， 你 发 现 每 个 项 目的 销售 额 都 有 相似 的 增长 。 因 此 ， 如 果 考 虑 项 目 维 


份 总 
况 。 
测 是 






































发 现 驱动 的 探索 形式 ， 预 先 计算 的 指示 数据 异常 的 值 被 用 来 在 
































规模 的 多 维 数据 中 采用 数据 立方 体 来 确定 反常 区 域 。 这 种 技术 在 
中 有 详细 的 描述 。 为 了 提高 效率 ， 孤 立 点 的 探测 过 程 与 立方 体 的 计算 是 重 著 的。 这 个 方法 是 
攻 合 计算 的 所 有 层次 上 指导 用 户 









































数据 分 析 。 如 果 一 个 立方 体 的 单元 值 显著 地 不 同 与 根据 统计 模型 得 到 期 望 的 值 ， 该 单元 值 被 认 















































一 个 例外 ， 并 采用 可 视 化 的 提示 来 表示 ， 例 如 背景 颜色 反映 每 个 单元 的 异常 程度 。 用 户 可 以 选 























那些 标 为 异常 的 单元 进行 钼 取 。 一 个 单元 的 度量 值 可 能 反映 了 发 生 在 立方 体 更 低层 次 上 的 寞 


这 些 异 兽 从 当前 的 层次 是 不 可 见 的 。 
这 个 模型 考虑 了 涉及 一 个 单元 所 属 的 所 有 维 的 度量 值 





















































中 的 变化 和 模式 。 例 如 
售 数据 的 数据 立方 体 ， 正 在 查看 按 月 汇总 的 销售 额 。 在 可 视 化 提示 的 帮助 下 ， 你 注意 到 与 其 他 月 份 





假设 你 有 一 个 销 


~ 


















































， 十 二 月 的 销售 额 有 增长 。 这 可 能 看 起 来 是 时 间 维 上 的 一 个 异常 。 但 是 ， 通 过 向 下 查看 十 二 月 














| 一 肯 





















































销售 额 的 增长 就 不 是 一 个 异常 。 该 模型 考虑 了 隐藏 在 数据 立方 体 集合 分 组 操作 后 面 的 异常 情 
对 这 样 的 异常 ， 由 于 搜索 空间 很 大 ， 特 别 是 当 存 在 许多 涉及 多 层 概念 层次 的 维 的 时 候 ， 人 工控 
非常 困难 的 。 


8.10 总 结 








一 个 簇 是 一 组 数据 对 象 的 集合 ， 在 同一 个 艇 中 的 对 象 彼此 类 似 ， 




















而 不 同 簇 中 的 对 和 象 彼此 相 异 。 


将 一 组 物理 或 抽象 对 象 分 组 为 类 似 对 象 组 成 的 多 个 簇 的 过 程 被 称 为 聚 类 。 
聚 类 分 析 有 很 广泛 的 应 用 , 包括 市 场 或 客户 识别 ,模式 识别 ， 生 物 学 研究 ,空间 数据 分 析 ，Web 


























文档 分 类 ， 及 许多 其 他 方面 。 聚 类 分 析 可 以 用 作 独 立 的 数据 挖 
解 ， 也 可 以 作为 其 它 数据 挖掘 算法 的 预 处 理 步 又 。 






























































旭 工 具 ， 来 获得 对 数据 分 布 的 了 


聚 类 的 质量 是 基于 对 象 相 异 度 来 评估 的 ， 相 异 度 可 以 对 多 种 类 型 的 数据 来 计算 ， 包 括 区 间 标 度 


























变量 ， 二 元 变量 ， 标 称 变量 ， 序 数 型 变量 ， 和 比例 标 度 型 变量 ， 























或 者 这 些 变量 类 型 的 组 合 。 














在 数据 挖掘 中 ， 聚 类 分 析 是 一 个 活跃 的 研究 领域 。 许 多 聚 类 算法 已 经 被 开发 出 来 。 有 共 体 可 以 分 


为 划分 方法 ， 层 次 方法 ， 基 于 密度 的 方法 ， 基 于 网 格 的 方法 ， 及 基于 模型 的 方法 。 
划分 方法 首先 得 到 初始 的 k 个 划分 的 集合 ， 这 里 的 参数 k 是 要 构建 的 划分 的 数目 ， 然 后 它 采 


















































迭代 重 定位 技术 ， 试 图 通过 将 对 象 从 一 个 簇 移 到 另 一 个 来 改进 划分 的 质量 。 有 代表 性 的 划分 方 








法 包括 k-means，k-medoids，CLARANS， 和 对 它们 的 改进 。 

















层次 方法 创建 给 定数 据 对 象 集合 的 一 个 层次 性 的 分 解 。 根 据 层次 分 解 的 形成 过 程 ， 这 类 方法 可 
以 被 分 为 自 底 向 上 的 ， 或 自 顶 向 下 的 。 为 了 弥补 合并 或 分 裂 的 严格 性 ， 凝 聚 的 层次 方法 的 聚 类 
质量 可 以 通过 分 析 每 个 层次 划分 中 的 对 象 链接 (例如 CURE 和 Chameleon)， 或 集成 其 它 的 聚 









































类 技术 《例如 返 代 重 定位 ，BIRCH) 来 改进 。 














生成 数据 聚 类 结构 的 一 个 扩充 的 顺序 。 





让 上 呈 逮 沂 这 












































于 密度 的 方法 基于 密度 的 概念 来 聚 类 对 象 。 它 或 者 根据 邻 域 对 象 的 密度 〈 例 如 DBSCAN )， 
者 根据 某 种 密度 函数 (例如 DENCLUE) 来 生成 聚 类 结果 。OPTICS 是 一 个 基于 密度 的 方法 ， 








于 网 格 的 方法 首先 将 对 象 空间 量化 为 有 限 数目 的 单元 ， 形 成 网 格 结构 ， 然 后 在 网 格 结构 上 进 

















行 聚 类 。STING 是 基于 网 格 方法 的 一 个 有 代表 性 的 例子 ， 它 基于 存储 在 网 格 单元 中 的 统计 信息 














聚 类 。CLIQUE 和 WaveCluster 是 两 个 既 基 于 网 格 ， 又 基于 密度 的 聚 类 算法 。 




















基于 模型 的 方法 为 每 个 簇 假设 一 个 模型 ， 发 现 数据 对 模型 的 最 好 匹配 。 有 代表 性 的 基于 模型 的 
方法 包括 统计 学 方法 (例如 COBWEB，CLASSIT， 和 AutoClass )， 或 神经 网 络 方法 (例如 有 











竞争 学 习 和 自 组 织 特征 图 ) 




































































一 个 人 的 “噪音 ”可 能 是 男 一 个 人 的 信和 号。 孤立 点 探测 和 分 析 对 于 欺诈 探测 ， 定 制 市 场 ， 医 疗 
分 析 ， 及 许多 其 它 的 任务 是 非常 有 用 的 。 基 于 计算 机 的 孤立 点 分 析 方 法 包括 基于 统计 学 方法 ， 















































习题 





基于 距离 的 方法 ， 和 基于 偏差 的 方法 。 











8.1 简单 地 描述 如 何 计算 由 如 下 类 型 的 变量 描述 的 对 象 间 的 相 异 度 : 
































(a) ”不 对 称 的 二 元 变量 
(b) ， 标 称 变量 








(c) ”比例 标 度 型 (Cratio-scaled) 变量 


(d) ”数值 型 的 变量 
8.2 给 定 对 如 下 的 年 龄 变量 的 度量 值 : 
18，22，25，42，28，43， 
通过 如 下 的 方法 进行 变量 标准 化 : 



























































33，35，56，28 


(a) 计算 年 龄 的 平均 绝对 偏差 


(b) ， 计算 头 四 个 值 的 z-score 
8.3 给 定 两 个 对 象 ， 分 别 表示 为 〈22， 


1 ， 42， 10 )， (20, 0， 30， 8 ): 




















(a) 计算 两 个 对 象 之 间 的 欧 几 里 得 距离 


(b) ”计算 两 个 对 象 之 间 的 曼哈顿 距离 

















(c) ”计算 两 个 对 象 之 间 的 明 考 斯 基 距 离 ，gq=3 
8.4 如 下 的 表 包 含 了 属性 name， gender，trait-1，traitt2，trait-3， 及 trait-4， 这 里 的 name 是 对 象 的 
id，gender 是 一 个 对 称 的 属性 ， 剩 余 的 trait 属性 是 不 对 称 的 ， 描 述 了 希望 找到 笔友 的 人 的 个 人 特点 。 





























图 (? 390) 



























































腿 设 有 一 个 服务 是 试图 发 现 合 适 的 笔友 。 








对 不 对 称 的 属性 的 值 ， 值 P 被 设 为 1， 值 N 被 设 为 0。 
假设 对 象 ( 潜 在 的 笔友 )〉 间 的 距离 是 只 基于 不 对 称 变量 来 计算 的 。 

















(a) ”给 定 Kevan,Caroline, 和 Erk 






































， 给 出 对 象 之 间 的 可 能 性 矩阵 。 





(b) 计算 对 象 间 的 简单 匹配 系数 。 


(c) ”计算 对 象 间 的 Jaccard 系数 








(d) 你 认为 哪 两 个 人 将 成 为 最 但 


o 





笔友 ? 哪 两 个 会 是 最 不 能 相 容 的 ? 





(e) ”假设 我 们 将 对 称 变 量 gender 包含 在 我 们 的 分 析 中 。 基 于 Jaccard 系数 ， 谁 将 是 最 和 谐 的 一 


对 ? 为 什么 ? 


























8.5 什么 是 聚 类 ? 简单 描述 如 下 的 聚 类 方法 : 划分 方法 ， 层 次 方法 ， 基 于 密度 的 方法 ， 基 于 网 格 的 
方法 ， 及 基于 模型 的 方法 。 为 每 类 方法 给 出 例子 。 

8.6 假设 数据 挖掘 的 任务 是 将 如 下 的 八 个 点 “〈 用 (xy) 代 表 位 置 ) 聚 类 为 三 个 类 。 
Al1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9) 

距离 函数 是 Euclidean 函数 。 假 设 初 始 我 们 选择 A1,B1, 和 C1 为 每 个 聚 类 的 中 心 ， 用 k-means 算法 来 











给 出 





















































(a) 在 第 一 次 循环 执行 后 的 三 个 聚 类 中 心 





(b) ”最 后 的 三 个 簇 





8.7 用 一 个 图 表 来 描述 当 给 定 一 个 常数 MinPts 时 ， 关 于 一 个 较 高 密度 〈 即 ， 邻 域 半径 取 一 个 较 低 的 



























































值 ) 的 基于 密度 的 聚 类 结果 如 何 被 完全 包含 在 根据 较 低 的 密度 所 获得 的 密度 相连 的 集合 中 。 
8.8 人 有 眼 在 判断 聚 类 方法 对 二 维 数据 的 聚 类 质量 上 是 快速 而 有 效 的 。 你 能 设计 一 个 数据 可 视 化 方法 



































来 使 数据 聚 类 可 视 化 和 帮助 人 们 判断 三 维 数据 的 聚 类 质量 吗 ? 对 更 高 维 数据 又 如 何 ? 























8.9 给 出 一 个 特定 的 聚 类 方法 如 何 被 综合 使 用 的 例子 ， 例 如 ， 什 么 情况 下 一 个 聚 类 算法 被 用 作 另 一 


个 算法 的 预 处 理 步 骤 。 




















8.10 聚 类 被 广泛 地 认为 是 一 种 重要 的 数据 挖掘 方法 ， 有 着 广泛 的 应 用 。 对 如 下 的 每 种 情况 给 出 一 个 


应 用 例子 : 
(a) 采用 案 类 作为 主要 的 数据 挖 
(b) 采用 案 类 作为 预 处 理工 具 ， 


























掘 方法 的 应 用 

















为 其 它 数据 挖掘 任务 作 数据 准备 的 应 用 





8.11 数据 立方 体 和 多 维 数据 库 以 层次 的 或 聚集 的 形式 包含 分 类 的 ， 序 数 型 的 ， 和 数值 型 的 数据 。 基 











于 你 已 经 学 习 的 关于 聚 类 方法 的 知识 
方法 。 














， 设 计 一 个 可 以 有 效 和 高 效 地 在 大 数据 立方 体 中 发 现 禾 的 聚 类 













































































































































































8.12 假设 你 将 在 一 个 给 定 的 区 域 分 配 一 些 自动 取款 机 以 满足 需求 。 住 宅 区 或 工作 区 可 以 被 聚 类 以 便 
每 个 禾 被 分 配 一 个 ATM。 但 是 ， 这 个 聚 类 可 能 被 一 些 因素 所 约束 ， 包 括 可 能 影响 ATM 可 达 性 的 桥 
梁 ， 河 流 和 公路 的 位 置 。 其 它 的 约束 可 能 包括 对 形成 一 个 区 域 的 每 个 地 域 的 ATM 数目 的 限制 。 给 
定 这 些 约束 ， 怎 样 修 改 聚 类 算法 来 实现 基于 约束 的 聚 类 ? 

8.13 为 什么 孤立 点 挖掘 是 重要 的 ? 简单 地 描述 基于 统计 的 孤立 点 探测 ， 基 于 距离 的 孤立 点 探测 ， 和 
基于 偏离 的 孤立 点 探测 的 方法 。 
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隧 类 分 类 








-means 算法 首 
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] 高 效 的 空间 存 取 方法 ， 例 如 R* 树 和 调 焦 技术 ， 来 进一步 改进 CLARANS 的 怕 
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是 出 的 BIRCH 在 采 


Chameleon。 


关于 基于 密度 的 聚 类 方法 , Ester, Kriegel, Sander, 和 Xu 在 [EKSX96] 提 H 
排序 方法 OPTICS, 它 方便 


Breunig，Kriegel， 和 











] 其 他 技术 之 前 首先 用 CF 树 进 行 层次 聚 类 。 
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Sander[ABKS99] 开 发 了 
乡 
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H 。K-medoids 算法 PAM 和 CLARA 由 


都 讨论 了 聚 类 方法 ， 例 如 Hartigan[Har75]，Jain 和 Dubes[JD88]， 及 Kaufman 和 
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和 Shim[GRS99] 提 出 的 ROCK 〔〈 聚 类 分 类 


1H DIANA ) 由 Kaufman 和 











的 方向 是 综合 层次 聚 类 和 基 





的 CURE, Guha, Rastogi， 
和 Kumar[KHK99] 提 出 的 
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密度 分 布 函数 的 DENCLUE 算法 由 Hinneburg 和 Keim[HK98] 提 出 。 
Wang，Yang， 和 Muntz[WYM97] 提 出 ， 它 在 
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Raghavan[AGGR98] 提 出 的 CLIQUE 是 一 个 综合 了 基于 密度 和 基于 网 格 方法 的 聚 类 算法 ， 用 于 聚 类 
高 维 数据 。 
关于 基于 模型 的 聚 类 方法 ， 请 参照 Shavlik 和 Dietterich[SD90]。 概 念 聚 类 首先 由 Michalski 和 
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(self-organizing feature maps )。 





聚 类 分 类 数据 的 可 打 











展 方法 被 广泛 研究 , 包括 Gibson，Kleinberg， 


的 COBWEB, Gennari, Langley 
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的 AutoClass。 神 经 网 络 方法 
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和 Raghavan[GKR98], Guha, 


Rastogi， 和 Shim[GRS99]， 及 Ganti，Gehrke， 和 Ramakrishnan[GGR99]。 此 外 ， 也 有 许多 其 它 的 聚 


类 范 型 。 例 如 ， 模 糊 聚 类 方法 在 Kaufman 和 


论 。 


孤立 点 探测 和 分 析 可 以 分 为 三 类 方法 : 基于 统计 的 方法 ,基于 距离 的 方法 ， 和 基于 1 
Barnett 和 Lewis[BL94] 中 
Ng[KN97 ，KN98] 中 有 
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描述 了 统计 的 方法 和 不 一 致 性 检验 。 基 于 昌 
述 。 基 于 偏离 的 孤立 点 探测 的 顺 
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ezdek 和 Pal[BP92] 中 进行 了 讨 




















局 离 的 方法 。 
E 离 的 孤立 点 探测 在 Knorr 和 














序 方法 在 Aring ，Agrawal ， 和 
日。 Sarawagi，Asgrawal， 和 Megiddo[ SAM98] 提 出 了 一 个 发 现 驱 动 的 方法 ， 
在 大 规模 的 多 维 数据 中 采 





况 。Jagadish ，Koudas ， 和 











了 一 个 高 效 的 在 时 间 序 列 数据 库 中 控 





遇 寞 常 的 方法 。 





第 九 章 复杂 类 型 数据 的 挖掘 


前 面 所 讨论 的 数据 挖掘 技术 ， 主 要 面 对 的 是 以 结构 化 数据 为 主 的 关系 数据 库 ， 事 务 数 据 库 ， 和 
数据 仓库 。 随 着 数据 处 理工 具 ， 先 进 数据 库 技 术 ， 以 及 万 维 网 CWWW) 技术 的 迅速 发 展 ， 大 量 的 
形式 各 样 的 复杂 类 型 的 数据 〈 如 结构 化 与 非 结 构 化 ， 超 文本 与 多 媒体 ) 不 断 涌现 。 因 此 数据 挖掘 面 
临 的 一 个 重要 的 课题 就 是 针对 复杂 类 型 数据 的 挖掘 ， 这 包括 复杂 对 象 ， 空 间 数据 ， 多 媒体 数据 ， 时 
间 序 列 数据 ， 文 本 数据 ， 和 Web 数据 ”。 

本 章 主 要 讨论 复杂 信息 的 挖掘 技术 ,包括 对 基本 数据 挖 据 技 术 〈 如 特征 ， 关 联 ， 分 类 ， 和 聚 类 ) 
的 扩展 ;对 复杂 数据 类 型 提出 一 些 新 的 技术 ， 以 及 在 复杂 的 信息 中 实施 知识 挖掘 的 方法 。 本 章 组 织 
如 下 : 9.1 节 介绍 基于 复杂 数据 对 象 的 多 维 分 析 和 描述 性 挖掘 ，9.2 节 描 述 空间 数据 挖掘 ，9.3 贡 讨 
论 多 媒体 数据 挖掘 ，9.4 介绍 时 间 序 列 数据 挖掘 ;9.5 给 出 文本 数据 库 的 挖掘 ;9.6 介绍 了 Web 挖掘 
技术 。 由 于 对 复杂 数据 的 挖掘 研究 尚 在 起 步 阶段 ， 本 章 讨论 只 涉及 一 些 基 本 问题 。 我 们 希望 今后 能 
有 更 多 的 论著 介绍 复杂 类 型 数据 的 挖掘 技术 。 


9.1 复杂 数据 对 象 的 多 维 分 析 和 描述 性 挖掘 〈descriptive mining ) 


许多 OLAP 工具 ， 其 主要 局 限 在 于 ， 维 和 度量 (measure) 只 
限定 于 特定 的 数据 类 型 。 大 部 分 数据 立方 体 的 维 限定 为 非 数 字数 据 ， 度 量 只 能 为 简单 的 聚集 值 。 为 
引入 针对 复杂 ee 本 节 将 介绍 复杂 数据 对 每 的 概 化 (generalization)， 
以 及 用 于 对 象 数据 库 中 OLAP 和 挖掘 的 对 象 立 方 体 的 构造 。 

复杂 结构 化 数据 (complex structured data) 的 存 取 方 法 在 对 象 关系 和 面向 对 象 数据 库 系统 已 已 有 
研究 。 在 这 些 系统 中 ， 大 量 复 杂 数 据 对 象 组 织 为 基 ， 类 又 按 效 天 类 的 层次 加 以 组 织 。 类 中 的 每 个 对 
有 具有 : (1) 一 个 对 象 标识 ; (2) 一 组 属性 ， 它们 可 以 具有 复杂 的 数据 结构 ， 人 (set) 值 或 列 
表 (list) 值 数据 ， 类 复合 层次 (class composition hierarchies)， 多 媒体 数据 等 (3) 一 组 方法 ， 
用 于 说 明 与 对 象 类 相关 的 计算 程序 或 规则 。 

为 在 对 象 关 系 和 面向 对 象 数 据 库 中 引入 概 化 和 归纳 (induction)， 需 重点 讨论 对 象 数 据 库 中 每 一 
组 成 (componenb) 的 概 化 方法 ， 以 及 概 化 数据 用 于 多 维 分 析 和 数据 挖掘 的 方法 。 






















































































































































































































































































































































































































































































































































































9. 1. 1 结构 数据 概 化 


对 象 关系 和 面向 对 象 数据 库 的 主要 特征 就 是 对 复杂 结构 数据 (如 集合 值 和 列表 值 数 据 ， 和 具有 
藤 套 结构 的 数据 ) 的 存储 ， 访 问 和 建 模 。 

“如 何 对 这 些 数 据 进行 概 化 ? ”首先 来 考虑 集合 值 和 列表 值 属性 的 概 化 。 

一 个 集合 值 属性 (set-valued attribute) 可 以 是 同 构 类 型 ， 也 可 以 是 异 构 类 型 。 通 常 ， 集 合 值 数 
据 概 化 方法 有 : (1) 将 集合 中 的 每 一 个 值 概 化 为 其 对 应 的 更 高 级 别 的 概念 ， 或 者 〈2) 导出 集合 的 
一 般 特 征 ， 如 集合 中 元 素 的 个 数 ， 集 合 中 类 型 或 值 的 区 间 分 布 ， 或 数字 数据 的 加 权 平 均 。 而 且 ， 昌 
一 概 化 可 以 基于 不 同 的 概 化 操作 ， 得 到 不 同 的 概 化 路 径 (generalization path)。 在 此 情况 下 ， 概 化 结 
为 一 个 异 构 集 合 。 

例 9. 1 假设 某 人 的 业余 爱好 为 一 集合 值 属性 ,包含 一 组 值 { 网 球 ， 曲 棍 球 ， 国 际 象 棋 ， 小 提 骏 ， 
任天堂 游戏 }。 这 一 集合 可 以 概 化 为 一 组 高 级 别 概念 ， 如 {体育 ， 首 乐 ， 电 子 游戏 }， 或 概 化 为 数字 5 
( 即 集合 中 有 5 个 爱好 )。 而 且 ， 每 个 概 化 值 可 以 连带 一 个 记 数 ， 用 了 ， 于 该 概 化 值 的 个 数 ， 
如 {体育 (3)， 音 乐 (1)， 电 子 游戏 (1) }， 其 中 体育 (3) 表明 有 3 种 体育 项 目 ， 如 此 等 等 。 

集合 值 属性 可 以 概 化 为 集合 值 属性 或 单 值 属性 ， 若 单 值 属性 形成 一 pr “层次 ” 或 
概 化 有 不 同 的 概 化 路 径 ， 则 它 可 以 概 化 为 一 个 集合 值 属性 ， 进一步 地 ， 在 概 化 集合 值 属 性 和 的 慑 化 
应 遵循 集合 中 每 一 值 的 概 化 路 径 。 

列表 值 或 序列 值 属性 (list-valued or sequence-valued attribute) 的 概 化 方法 类 似 集合 值 属性 ， 所 不 
同 的 是 概 化 中 要 保持 元 素 的 次 序 。 列 表 中 的 每 一 个 值 可 以 概 化 为 其 对 应 的 高 级 别 概念 。 或 者 ， 把 一 
































































































































































































































































































































































































































































































































”有 关 这 些 复杂 数据 的 简单 介绍 见 1.3.4。 








个 列表 概 化 为 一 般 特 征 ， 如 列表 长 度 ， 列 表 元 素 类 型 
一 个 列表 可 以 概 化 为 列表 ， 集 合 








不 重要 的 元 素 。 


， 值 

















| 





区 间 ， 数 字 值 的 加 权 平 均 ， 或 删除 列表 











直 。 

















例 9 2 考虑 如 下 有 关 个 人 教育 记录 的 列表 或 序列 ，“ (( 电 子 工程 本 科 , U.B.C, Dec., 1990), ( 计 




















算 机 工程 硕士 ， 马 里 兰 大 学 ，May， 
重要 的 描述 〈 属 性 ) 可 以 把 该 列表 概 化 为 一 
并 且 / 或 者 只 保留 列表 中 

复杂 的 结构 值 属性 可 以 包括 集合 
个 结构 可 以 以 任意 深度 
(1) 保持 原本 结构 不 变 ， 对 其 中 

































































PP 的 每 一 








详 套 在 另 一 个 结构 中 ， 


1993), (计算 机 科学 博士 ，UCLA, Aug., 1997)) ， 


ES 
地 


新 的 列表 ， 








元 组 ， 列 表 ， 树 ， 


| 








属性 加 以 概 化 ; 


[ES 








做 概 化 ;(3)〉 用 高 级 别 的 概念 或 聚集 概 化 低级 别 的 结构 ; 


9. 1. 2 空间 和 多 媒体 数据 概 化 中 的 聚集 和 近似 计算 


x 
聚集 


司 或 多 媒体 数据 的 属性 尤为 重要 。 
以 空间 数据 为 例 。 我 们 通常 需要 将 一 
途 可 概 化 为 商业 区 ， 届 民 | 





























和 近似 计算 (approximatiomn) 是 概 化 的 另 一 个 重 寻 


工业 区 ， 或 农 、 








些 具 体 的 地 到 
上 
































XxX.， 
或 空 间 聚 类 方法 , 把 一 组 地 理 





驻 域 加 以 合 








并 。 聚 


胰 王 人 了 





焦 
| 








通常 一 个 结构 值 属性 可 以 有 几 种 概 化 方法 ， 


要 的 方面 ， 它 对 具 


E 上 的 点 概 化 为 一 
区 等 。 这 种 概 化 需要 通过 - 


”。 通 过 去 挥 不 大 
1990),，...” 





如 “(( 本 科 ，U.B.C., Dec.， 
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最 重要 的 元 组 ， 如 “(计算 机 科学 博士 ， UCLA, 1997)”。 


即 其 





记录 等 等 ， 以 及 它们 的 组 合 P 的 一 
例如 : 


化 的 结构 




















(2) 把 原 结构 扇 
(4) 概 化 出 原 结构 


FE 化 ， 对 扁 习 
的 类 型 或 概貌 。 
































些 聚 全 








区 域 ， 如 根据 了 
如 空 


上 地 的 
间 并 





上 | 























在 空间 合并 〈spatial merge) 中 ， 不 仅 
出 总 的 面积 ， 平 均 密 度 ， 或 其 它 的 聚集 函 
区 域 。 它 一 些 空 x 间 操 作 ， 如 空间 3 
intersectiom)， 它 们 需要 把 一 些 分 散 上 


近似 计算 来 完成 概 化 处 理 。 
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例 9. 3 假设 我 们 有 几 片 用 于 各 种 农业 


ny 女 口 


数 ， 这 其 5 


的 小 的 区 域 合 # 














上 具有 同 











LI 





al union), 








为 大 的 

















] 途 的 土 




















几 片 土地 则 可 以 通过 空间 合并 操 人 f 
包含 了 高 速 公 路 ， 房 
它 目 的 的 区 域 可 

多 媒体 数据 库 包 含 复杂 的 文本 ， 图 
视频 信息 。 多 媒体 数据 通常 
或 建立 多 维 方式 的 索引 。 

多 媒体 数据 的 概 化 可 





合计 














形 


























通过 对 这 类 数据 








屋 ， 小 的 店铺 ， 等 等 。 
以 忽略 ， 即 整个 区 域 可 以 通过 近似 训 


以 可 变 长 度 的 位 串 存 储 ， 
的 基本 特 4 


或 聚集 为 一 大 片 的 农业 用 地 
土地 的 主要 








如 果 这 片 
| 算 归 
视频 ， 
并 且 

















图 象 ， 























取 这 类 信息 的 方式 很 多 。 对 图 象 数据 ， 
(color)， 形 状 (shape) 
对 音乐 数据 ， 其 音调 可 以 通 























通过 聚 旨 





[1 村 
1 时 




















或 主要 演奏 乐器 总 结 得 出 。 篇 文章 











概 化 结果 可 以 








EE 











出 。 对 
出 现 频 率 较 高 的 主题 和 索引 )。 


通常 ， 从 空间 和 多 媒体 数据 ! 
性 的 工作 。 必 须 把 空 
象 检索 和 多 维 


数据 的 挖掘 技 术 将 在 以 下 小 节 ， 

































































讨论 。 








9. 1. 3 对 象 标 识 和 类 / 子 类 层次 的 概 化 





“如 果 对 象 标识 的 作用 是 
不 可 被 概 化 。 
按 类 组 织 ， 类 又 组 织 为 类 / 子 类 层次 结构 ， 





























VTS 


埋 构 向 上 被 概 化 为 其 对 应 的 超 类 。 


间 数 据 库 和 多 媒体 数据 库 技术 《如 空 
索引 方法 ) 与 数据 概 化 和 数据 控 


提取 隐 含 存在 的 知识 ， 从 而 对 这 些 数据 加 以 概 化 


之 六 














重组 后 也 保持 





因由 





的 类 / 子 类 标识 





“对 和 象 的 继承 特性 可 以 被 概 化 吗 ? ”1 





























性 或 成 员 并 不 明志 


第 地 在 类 中 说 明 ， 而 是 从 对 





象 的 高 一 


Pe 
空间 


也 ， 例 如 分 别 用 了 


征 和 /或 ) 
时 和 近似 计算 可 提取 的 信 
， 质 地 Ctexture )， 方位 (orientation)， 和 图 象 中 所 包含 对 象 或 区 域 的 位 置 和 结构 。 


过 近似 计算 找 出 重复 出 现 的 模式 片段 ， 而 


时 技术 结合 起 来 使 用 ， 


[对 象 的 概 化 可 
象 标识 可 以 按 如 下 步骤 加 以 概 化 : 首先 ， 对 象 标识 概 化 为 对 
标识 可 以 沿 类 / 子 类 层次 向 上 概 化 为 高 一 级 别 


级 别 类 





类 别 的 相似 类 型 的 区 域 而 且 需 要 计算 
要 的 类 型 各 异 的 分 散 的 
E 共 (spatial overlapping)， 和 空间 交 (spatial 
日 空间 聚集 和 








已 











聚合 区 域 ， 这 些 操作 也 要 使 有 











六 蔬菜， 谷物 和 水 果 种 植 。 这 

也 。 然 而 这 样 一 片 农业 用 地 中 可 能 

j 途 是 农业 ， 则 其 中 分 散 的 用 于 

结 为 一 片 农 业 区 域 。 国 

地 图 ， 声 音 ， 音 乐 ， 和 其 它 形式 的 音频 / 
]， 数 据 片 段 要 相互 链接 


>» 卢 百 
为 便于 数据 的 引 































































































一 般 模式 的 识别 和 抽取 加 以 完成 。 抽 
息 可 以 有 尺寸 Size)， 颜 色 






























































风格 可 以 基于 音调 ， 节 拍 
是 文章 的 摘要 或 篇 章 结构 〈 例 如 ， 目 录 ， 








>» 











是 一 件 具 有 挑战 
间 数 据 的 访问 和 分 析 技 术 ， 基 于 内 容 的 图 
才能 取得 满意 结果 。 针 对 此 类 

































































惟一 标识 对 象 ， 那 么 如 何 对 其 进行 概 化 ? ” 初 看 起 来 ， 对 象 标识 似乎 
因为 对 象 标识 即使 在 数据 结构 








不 变 。 然 而 由 于 面向 对 象 数据 库 中 的 对 象 
以 基于 相关 的 层次 结构 来 完成 。 这 样 对 
象 所 属 的 最 底层 子 类 的 标识 。 然 后 子 类 


。 同 样 ， 类 或 子 类 可 以 顺 着 类 / 子 类 层次 


















































于 面向 对 象 数据 库 组 织 为 类 / 子 类 层次 ， 对 象 类 的 某 些 属 








类 中 旨 














尝 承 得 来 。 有 些 面 向 对 象 数据 库 系统 

















允许 多 重 继承 (multiple inheritance )， 即 当 类 / 子 类 结构 时 类 格 时 ， 一 些 特性 可 以 从 不 止 一 个 超 类 中 
类 承 而 来 。 对 象 的 继承 特性 可 以 由 面向 对 象 数 据 库 中 的 查询 处 理 推导 得 出 。 从 数据 概 化 的 角度 看 ， 
没有 必要 区 分 数据 直接 来 自 类 还 是 继承 于 超 类 。 只 要 和 查询 处 理 能 够 把 有 关 的 数据 集合 得 到 ， 数 据 挖 
据 处 理 时 会 对 两 类 数据 (继承 的 和 直接 的 ) 一 视 同 仁 ， 并 据 此 加 以 概 化 。 

方法 是 面向 对 象 数 据 库 的 重要 组 成 部 分 。 对 象 的 很 多 特征 数据 可 以 通过 应 用 方法 导出 。 由 于 方 
法 通常 定义 为 计算 过 程 /函数 或 一 组 演绎 规则 ， 因 此 对 方法 本 身 不 存在 概 化 问题 。 但 是 可 以 对 由 方法 
导出 的 数据 加 以 概 化 。 即 一 旦 由 方法 导出 了 一 组 数据 ， 则 可 以 对 这 些 数据 加 以 概 化 。 
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9. 1. 4 类 复合 层次 概 化 





一 个 对 象 的 属性 可 以 定义 为 男 一 个 对 象 ， 而 该 对 象 的 属性 又 可 以 定义 为 对 象 ， 如 此 便 形成 了 类 
复合 层次 (class composition hierarchy) 结构 。 关 于 类 复合 层次 的 概 化 可 视 为 在 一 组 远 套 的 结构 化 数 
据 ( 如 果 髓 套 是 递归 的 ， 其 髓 套 层 次 可 能 无 限 ) 之 上 的 概 化 。 

原则 上 ， 对 复合 对 象 〈composite object) 的 引用 要 在 类 复合 层次 上 人 遍历 一 段 引 用 路 径 。 但 在 大 
多 数 情况 下 ， 遍 历 路 径 越 长 ， 其 初始 对 每 与 被 引用 的 复合 对 和 象 间 的 语义 相关 性 越 弱 。 例 如 ， 对 每 类 
student( 学 生 ) 的 属性 vehicles_owned( 拥 有 汽车 ) 可 引用 另 一 对 象 car( 轿 车 )， 而 car 可 能 包含 属性 
auto_dealer( 经 销 商 )， 它 可 能 要 引用 有 关 经 销 商 的 上 司 和 子女 方面 的 属性 。 显 然 ， 在 学 生 和 他 所 购买 
的 车 辆 的 经 销 商 的 上 司 的 子女 之 间 不 可 能 存在 什么 有 兴趣 的 关联 。 因 此 ， 一 组 对 象 上 的 概 化 必须 限 
定 在 对 有 限 的 紧密 相关 的 构成 属性 上 的 概 化 。 即 ， 要 发 现 感 兴趣 的 知识 ， 其 概 化 必须 在 类 复合 层次 
中 与 当前 类 有 紧密 语义 关联 的 对 象 上 进行 ， 而 不 是 那些 相隔 较 远 ， 语 义 联 系 较 弱 的 对 象 上 。 






























































































































































9. 1. 5 对 象 立方 体 的 构造 与 挖掘 


























在 对 象 数 据 库 中 ， 数 据 的 概 化 与 多 维 分 析 不 适用 单个 对 象 ， 而 是 面 对 一 组 对 象 。 由 于 某 个 类 的 
一 组 对 象 可 能 共享 许多 属性 和 方法 ， 并 且 每 个 属性 和 方法 的 概 化 可 能 使 用 一 系列 的 概 化 操作 ， 这 时 
一 个 很 重要 的 问题 是 如 何 使 类 中 不 同 的 属性 和 方法 的 概 化 处 理 相互 协作 利用 。 
“对 一 组 对 象 如 何 处 理 基于 类 的 概 化 ? ”对 基于 类 的 概 化 ， 第 5 章 中 有 关 关 系数 据 库 的 特征 挖 
掘 中 介绍 的 面向 属性 的 归纳 方法 ， 可 以 加 以 扩展 用 于 对 象 数据 库 中 数据 特征 挖掘 。 基 于 概 化 的 数据 
挖掘 过 程 可 视 为 一 组 在 不 同属 性 上 基于 类 的 概 化 操作 的 序列 。 概 化 可 以 连续 进行 ， 直 到 结果 类 中 所 
包含 的 概 化 对 象 数 目 较 少 ， 并 且 可 以 概括 为 一 个 抽象 层次 较 高 的 简练 而 一 般 的 规则 。 为 高 效 实现 这 
一 概 化 ， 对 复杂 对 象 类 的 多 维 属性 的 概 化 可 以 转化 为 对 每 一 属性 〔 维 ) 的 概 化 ， 既 概 化 每 一 属性 为 
简单 值 数据 ， 并 据 此 构造 一 个 多 维 数据 立方 体 ， 称 为 对 象 立方 体 。 一 旦 有 了 对 象 立方 体 ， 其 多 维 
分 析 和 数据 挖掘 就 可 比照 关系 数据 立方 体 的 方法 进行 。 

值得 注意 的 是 ， 从 应 用 角度 看 ， 并 不 是 总 可 以 把 一 组 值 概 化 为 单 值 数据 。 例 如 对 属性 keyword 
(关键 字 )， 它 可 能 包含 一 些 有 关 书 籍 的 关键 字 ， 把 这 样 的 一 组 关键 字 概 化 为 一 个 单一 值 是 没有 意 
义 的 。 在 这 里 ， 很 难 构 造 一 个 包含 keyword 维 的 对 象 立方 体 。 在 下 一 节 讨 论 空 间 数据 立方 体 的 构造 
时 ， 会 指出 在 此 方面 的 一 些 进展 。 不 过 ， 在 对 象 立 方 体 构造 和 基于 对 象 的 数据 挖掘 中 ， 如 何 有 效 处 
理 集合 值 数据 ， 仍 是 一 个 具有 挑战 性 的 研究 课题 。 

























































































































































































































































































































































































































































































9. 1. 6 对 规划 数据 库 的 概 化 挖掘 














为 说 明 概 化 在 复杂 数据 库 挖 掘 中 所 起 的 重要 作用 ， 本 节 给 出 一 个 案例 ， 有 具体 讲述 的 是 采用 分 而 
治之 〈divide-and-conquer) 策略 ， 在 规划 数据 库 (plan database) 中 挖掘 有 意义 的 成 功 行为 模式 。 

一 个 规划 通常 由 一 个 可 变 的 行为 序列 组 成 。 一 个 规划 数据 库 ， 或 简称 为 规划 库 (planbase )， 则 
为 若干 计划 的 集合 。 规 划 挖 气 (plan mining) 就 是 从 规划 库 中 挖掘 出 有 意义 的 模式 或 知识 。 规 划 挖 
掘 有 很 多 用 途 ， 例 如 可 从 飞行 数据 库 中 发 现 商 务 乘 客 旅行 模式 ， 或 在 汽车 修理 数据 库 中 的 行为 序列 
找 出 有 意义 的 模式 。 规 划 挖 气 有 别 于 序列 模式 挖掘 ， 后 者 是 指 在 一 个 很 详细 的 层次 上 挖掘 出 大 量 
的 出 现 频繁 的 序列 模式 。 而 规划 挖掘 是 指 从 规划 库 中 提取 重要 的 或 有 意义 的 概 化 〈 序 列 ) 模式 。 
下 面 以 搭乘 飞机 旅行 为 例 说 明 规 划 挖 掘 的 过 程 。 
例 9. 4 一 个 乘 飞机 旅行 规划 库 : 假设 乘 飞 机 旅行 规划 库 如 表 9.1 所 示 ， 存 储 着 旅客 飞行 的 序 
列 数据 ， 其 中 每 一 个 记录 对 应 序列 数据 库 中 的 一 个 行为 (action)， 有 具有 相同 规划 号 的 记录 序列 是 






































































































































































































































个 有 关 行 为 序列 的 计划 。 列 departure〈 出 发 ) 和 arrival (到 达 ) 
出 了 每 个 机 场 的 信 
9.1 的 规划 库 
途径 芝加哥 的 ORD 机 场 (ORD 可 能 是 几 个 主要 航线 的 重要 村 








从 类 似 表 
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心 \o 




















可 以 控 和 








注意 充当 航线 





[集散 


























心 。 
表 9。 
P401 


表 9。2 机 场 信 


P402 


也 许 人 们 要 问 “ 如 何 挖掘 规划 库 ? ”。 
决 大 部 分 规划 ， 
规划 库 中 的 规划 概 化 为 足够 高 级 别 的 概念 。 如 
可 以 有 助 于 此 类 规划 的 概 化 。 由 于 低级 别 信息 缺 
模型 按 不 同 的 方向 概 化 规划 库 ; 


可 以 履 盖 














又 处 理 : 


容易 地 从 表 9.2 中 基于 airport_size ( 册 
不 加 选择 的 挖 志 
1 旅行 规划 数据 库 : 旅行 规划 库 


(1) 基于 多 维 














心 〈 如 位 于 洛 杨 
儿 场 规模) 
最 可 能 导致 控 出 大 量 的 规则 ， 





























息 表 























我 们 可 以 据 此 序列 分 





名 


























列 模式 ， 它 有 是 够 的 支持 度 
下 面 举 例 说 明 。 将 规划 库 ， 





示 ): 


; (3) 据 此 导 























ALB-JFK-ORD-LAX-SAN 
SPI-ORD-JFK-SYR 


具有 相同 规划 号 的 元 组 合 3 





给 出 的 是 相应 机 场 的 代码 。 








表 9.2 给 





区 纽 )， 








必 出 许多 模式 。 例 如 ， 我 们 可 以 挖 抉 出 从 靠近 大 本 
部 城市 的 最 多 的 航班 。 





WM 


飞 往 中 








的 LAX， 芝 加 哥 的 ORD， 和 纽约 的 JFK) 








导出 。 然 而 在 数据 
它们 缺乏 足够 的 支持 ， 没 





库 中 可 外 


有 上 百 个 


有 清晰 的 总 























类 模式 的 











来 形 
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性 
(2) 保证 








出 高 级 别 简洁 的 规划 。 
， 得 到 如 下 的 行为 序列 《以 机 场 代码 表 

















《行规 划 库 的 多 维 
成 简明 的 规划 ， 
化 规划 具有 共 








< 同 的 














WM 





| 洋 的 城市 ， 








的 机 场 可 以 很 
这 样 的 集散 中 
体 画 面 。 





实 我 们 想 挖掘 的 是 很 少数 量 的 一 般 〈 序 列 ) 模式 ， 它 
来 做 进一步 的 搜索 。 挖 掘 此 
9。1 所 示 的 关于 
乏 足 够 的 夫 


月 .二 人 怠 


关键 是 要 有 He 
数据 库 模 型 ， 
因此 要 按 以 下 步 
， 感 兴趣 的 序 





这 些 序列 看 上 去 差异 很 大 。 然 而 它们 可 以 在 多 个 维 上 加 以 概 化 。 当 基于 airport_size 维 概 化 时 ， 











可 得 到 一 些 有 意 


























列 使 
闭 包 记号 











对 象 或 行为 是 可 选 的 。 


Airline( 航 线 ) 





思 的 序列 模式 如 S-L-L-S$， 其 中 工 代表 
机 场 ， 具 体 如 表 9。 3 所 示 。 
基于 大 量 飞 行 旅行 规划 的 概 化 结果 可 产生 一 些 术 











日 当 一 








用 合并 (merge) 和 或 选 (optional) 操作 ， 前 者 是 把 连 纪 
“+” 来 表示 这 同一 类 型 行为 的 一 个 序列 ， 


大 的 机 场 “ 即 集散 中 心 )，S 代 





般 但 十 分 规则 的 模式 。 为 此 一 





起 相同 
而 后 者 使 用 记号 














表 9。4 给 出 


Airport size( 机 场 规模 ) 
治 概念 


location ( 


图 9。 


表 9。3 规划 库 的 多 维 概 化 P403 


表 9。4 合并 规划 中 连 


3 





续 相 同 的 行为 P404 


























通过 合 











并 相同 的 行为 ， 

[S] 一 L 一 [S] 
该 模式 表明 有 98.5 多 的 旅行 规划 具有 模式 [S] 一 L 一 [S]， 
或 多 个 直 。 换 名 话说 ， 这 一 旅行 模式 含义 是 ， 首 先 可 能 
机 场 ， 最 后 达到 一 个 大 型 (也 可 


可 以 得 至 
[98.5%] 











能 小 型 ) 机 场 。 








[| 








在 得 到 一 个 有 


片 进 一 步 挖掘 ， 
P404 


其 含义 是 对 由 小 机 场 x 直 飞 大 机 场 y 的 飞行 , x 和 y 同属 一 
此 例 展示 了 一 种 分 而 治之 的 策略 ， 即 首先 通 


够 文 


共性 


RY 


持 度 的 序列 模式 后 ， 可 以 月 
特征 。 例 如 ， 





人 L 


得 全 













































































1 数据 库 的 多 维 视 


过 对 规划 库 的 多 维 


了 针对 表 9。3 中 的 规划 实施 合 





层次 上 升 


位 置 ) 





图 P403 





| 概 化 的 序列 模式 ， 如 模式 (9。 


(9.1) 














一 个 小 的 





友 夺 上品 . 和 八 


的 符号 合并 为 一 个 








表 相 对 小 型 的 


般 对 概 化 序 
并 使 用 传递 

















>» 


“[]” 来 表示 方 括 狐 “[]” 中 的 








并 后 的 





结果 。 





1): 


中 [S] 表 示 行 为 $ 是 可 选 的 ，L 表示 一 个 
机 场 出 发 ， 途 径 一 


个 或 多 个 大 型 


来 对 原 有 的 规划 库 分 片 。 然 后 可 以 对 每 一 个 分 











从 以 分 片 的 规划 库 可 以 得 出 : 
个 区 域 的 概率 为 75%。 


概 化 找 出 有 兴 ee 

















的 规划 序列 ， 然 后 基于 挖掘 出 的 模式 对 规划 库 分 片 ， 进 一 步 发 现 子 规划 库 的 有 关 特 征 。 这 种 挖掘 方 
法 可 适用 许多 其 它 应 用 。 例 如 ， 在 Weblog 挖掘 中 ， 我 们 可 以 研究 Web 的 一 般 访问 模式 ， 以 便 识 别 


出 热点 Web 门户 ， 和 公共 路 径 ， 然 后 
规划 挖掘 技术 可 以 在 几 个 方面 得 到 进 




















用 于 确定 概 化 的 级 别 并 

















再 进行 











具体 的 子 模式 的 挖掘。 


























步 的 扩 


展 。 例 如 ， 类 似 关 联 规则 








保证 模式 有 足够 的 覆盖 率 。 在 规划 挖掘 中 还 可 




















挖 抉 的 最 小 支持 闵 值 可 
以 引入 其 它 操 作 ， 如 小 于 





(less_than)。 其 它 方面 包括 从 子规 划 库 中 抽取 关联 信息 ， 或 挖 气 含 有 多 维 属性 的 序列 模式 ， 例 如 ， 











包含 机 场 规模 和 国家 的 两 个 属性 的 模式 。 这 种 














然后 


9. 2 空间 数据 库 挖掘 


于 求 得 组 合 的 序列 模式 。 




















空间 数据 库存 储 了 大 量 与 空间 有 关 的 数据 , 例如 地 攻 
间 数 据 库 有 许多 与 关系 数据 库 所 不 同 的 显著 特征 。 
通常 按 复 杂 的 ， 多 维 空间 索引 结构 纪 








A Px 
等 。 空 


























里 ， 地 理 计 算 ， 和 


























中 非 明 而 





























图 ， 遥感 或 医学 图 














包含 多 维 的 挖掘, 首先 也 得 先 求 出 没 个 多 








EE 的 概 化 结果 ， 











象 数 据 ，VLSI 芯片 设计 数 
































空间 数据 库 包 含 了 拓扑 和 /或 距离 信息 ， 
昌 织 数据 ， 其 访问 是 通过 空间 数据 的 访问 方法 ， 经 常 需 要 空间 推 
空间 知识 表示 技术 
空间 数据 挖掘 是 指 对 空间 数据 库 





存在 的 知识 ， 空 间 关系 ， 或 其 它 有 意义 的 模式 等 的 提 


取 。 空 间 数据 控 所 需要 综合 数据 挖掘 与 空间 数据 库 技术 ， 它 可 用 于 对 空间 数据 的 理解 ， 空 间 关系 和 
空间 与 非 空 间 数 据 间 关系 的 发 现 ， 空 间 知 识 库 的 构造 ， 空 间 数 据 库 的 重组 ， 和 空间 查询 的 优化 。 空 




















间 数 据 挖掘 在 地 理 信 息 系统 , “地 到 
导航 ， 交 通 控 制 ， 环 境 研究 ， 以 及 许多 使 用 空间 数据 的 领域 中 有 广泛 的 应 
性 ， 空 间 数 据 挖掘 面临 的 主要 挑战 是 研究 高 效 的 空 


大 数据 量 和 空间 数据 类 型 和 
间 数 据 挖掘 技术 。 


























; 云 。 





统计 方法 可 以 很 好 地 处 理 数字 





“空间 数据 挖掘 使 用 统计 技术 方 


型 


空间 访问 方法 的 复杂 





市 场 ”(geomarketing )， 遥 感 ， 攻 























ba 


























象 数 据 库 探测 ， 医 学 图 象 处 理 ， 
用 价值 。! 




















于 空间 数据 的 









































也 很 多 ， 比 如 统计 方法 通常 假设 空间 分 布 的 数据 间 




















法 如 何 ? ”统计 空间 数据 分 析 已 经 是 空间 数据 分 析 中 常用 的 方 
数据 ， 并 可 以 对 空间 现象 提出 现实 的 模型 。 然 而 它 存在 的 问题 








三 } 








是 统计 上 独立 的 ， 但 现实 是 空间 对 象 间 是 相互 关 


联 的 ， 大 部 分 统计 模型 只 有 上 有 具有 相当 丰富 领域 知识 和 统计 方面 经 验 的 统计 专家 才 用 得 起 来 :统计 方 











法 不 适用 
掘 将 对 传统 的 空间 分 析 方 法 加 以 扩 














改进 与 用 户 的 交互 ， 以 及 新 的 知识 的 发 现 。 





9. 2. 1 空间 数据 立方 体 构造 和 空间 OLAP 














符号 值 ， 或 不 完整 或 非 确定 的 数据 ， 对 大 规模 数据 库 其 计算 代价 也 十 分 员 贵 。 空 间 数据 控 











展 ， 重 点 解决 其 高 效 性 ， 可 伸缩 性 ， 与 数据 库 系 统 的 紧密 结合 ， 








“可 以 构造 出 空间 数据 仓库 吗 ? ”是 的 ， 象 关系 数据 一 样 ， 我 们 可 以 把 空间 数据 集成 起 来 构成 











一 个 数据 仓库 以 便 空 间 数据 挖 据 的 处 理 。 
且 是 非 易 失 性 的 空间 和 非 空 间 数 据 的 集合 ， 























下 面 举 例 说 明 。 


例 9. 5 在 英 属 哥伦比亚 〈BC) 分 布 着 3000 个 气象 探测 器 ， 每 一 个 记录 ] 
的 气象 总 站 。 通 过 建立 空间 数据 仓库 ， 





温和 降雨 量 ， 并 将 数据 传送 到 全 省 




















空间 数据 仓库 是 面向 主题 的 ， 集 成 的 ， 











随时 间 变 化 的 ， 并 
































于 文 持 空间 数据 挖 据 和 空间 数据 有 








关 的 决策 支持 处 














指定 区 域 的 每 日 气 









































户 可 以 在 地 





图 上 按 





























可 以 支持 空间 OLAP， 用 





] ， 按 地 区 ， 按 温度 和 降雨 量 的 不 同 组 合 观 察 气象 变化 模式 ， 可 以 动态 地 沿 任何 














一 维 下 外 (drill down) 和 上 卷 (roll up)， 发 现 希 所 望 的 模式 ， 诸 如 “1999 年 夏 Fraser 峡谷 的 湿热 地 





区 ” 国 

构造 和 使 用 空间 
成 起 来 的 问题 。 空 间 数据 通常 存 
不 仅 有 特定 的 结构 有 关 《 例 如 ， 
间 存 储 和 索引 结构 ， 等 等 )， 
异 构 空 间 数据 的 集成 与 交换 已 有 









































数据 仓库 存在 几 个 挑战 怕 
渚 在 行 行 1 





色色 的 工业 企业 和 政府 机 构 









































基于 光栅 /向量 空间 数据 ， 面 向 对 象 模型 /关系 模型 ， 各 式 各 样 的 空 
而 且 与 特定 厂家 有 关 “【〈 例 如 ，ERSI，MapInfo，Intergraph 等 等 )。 有 关 
很 多 的 研究 工作 ， 这 为 空间 数据 集成 和 空间 仓库 构造 铺 平 了 道路 。 





























FE 的 问题 。 首 先是 从 异 构 数据 源 和 系统 
PF， 数 据 格 式 各 异 。 数 据 格式 

















把 空间 数据 集 


As 





AN 


















































第 二 个 问题 是 如 何在 空间 数据 仓库 中 实现 快速 而 灵活 的 联机 分 析 处 理 。 第 二 章 中 介绍 的 星 型 模 
式 很 适合 空间 数据 仓库 ， 因 为 它 提供 了 简洁 而 有 组 织 的 仓库 结构 ， 便 于 OLAP 操作 。 但 在 空间 数据 
仓库 中 ， 维 和 度量 都 包含 空间 成 分 。 

在 空间 数据 立方 体 中 有 三 种 类 型 的 维 : 

国 非 空间 维 只 包含 非 空间 数据 。 如 例 9。5 中 可 构造 数据 仓库 的 非 空间 维 温度 和 降雨 量 ， 因 为 





























它们 每 一 个 只 包含 非 空间 数据 ， 划 



















































































概 化 也 是 非 空 间 的 (如 气温 的 “ 热 ”"， 降 雨量 的 “ 混 











”) 
o 




















量 空 间 - 非 空间 维 是 指 初始 数据 是 空间 数据 ， 但 其 概 化 值 ， 在 一 定 的 抽象 级 别 则 是 非 空间 的 。 例 
如 ， 衬 间 维 city 取 自 美国 地 图 的 地 理 数 据 。 假 设 此 维 的 一 个 空间 值 ， 比 如 西雅图 ， 概 化 为 字符 串 
“pacific_northwest( 西 北 _ 太平洋 )”。 虽然 “pacific_northwest” 是 一 个 空间 概念 ， 但 不 是 一 个 空间 
直 〈 因 为 ， 在 此 例 中 ， 它 为 一 字符 串 )。 因 此 它 是 一 个 非 空间 维 。 

加 空间 -空间 维 是 指 无 论 初始 数据 还 是 所 有 高 一 级 别 的 概 化 数据 都 是 空间 维 的 。 例 如 ， 
equi_temperature_region 维 包含 空间 数据 ， 对 其 所 有 概 化 ， 如 0-5_degree( 摄 氏 )，5-10_degree 等 的 地 
区 ， 也 是 由 空间 数据 组 成 。 



















































































As 










































































地 区 维 表 BC 气象 事实 表 温度 维 表 
时 间 维 表 降雨 量 维 表 
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9。2 BC_weather 空间 数据 仓库 的 星 模式 及 对 应 的 BC 气象 监测 图 P407 





























空间 数据 立方 体 中 有 两 类 不 同 的 度量 。 

量 数字 度量 仅 包含 数字 数据 。 例 如 ， 空 间 数 据 仓库 中 的 一 个 度量 可 以 为 某 地 区 的 月 收入 ， 通 
上 卷 可 计算 出 按 年 ， 按 郡 等 的 收入 。 数 字 度 量 可 近 一 步 划 分 为 如 第 二 章 所 a 
代数 的 ， 整 体 的 (holistic)。 

加 空间 度量 包含 一 组 指向 空间 对 象 的 指针 。 例 如 ， 在 例 9。5 的 空间 数据 立方 体 中 的 概 化 (或 
上 卷 ) 中 ， 具 有 相同 温度 和 降雨 量 的 地 区 被 组 合 为 同一 个 单元 ， 所 形成 的 度量 包含 了 指向 这 一 地 区 
的 一 组 指针 。 

非 空间 立方 体 仅 包 含 非 空间 维和 数字 化 的 度量 。 若 一 个 空间 数据 立方 体 包含 空间 维 但 不 含 空间 
度量 ， 其 OLAP 操作 ， 如 上 钻 或 转轴 (pivoting)， 可 以 以 非 空间 数据 立方 体 的 方式 实现 。 

“那么 空间 数据 立方 体 中 的 空间 度量 会 是 怎样 ? ”这 一 提问 会 带 来 一 些 有 关 实 现 方面 的 挑战 性 
问题 ， 如 以 下 例子 中 所 看 到 的 。 

例 9. 6 例 9。5 的 BC_weather 空间 数据 仓库 的 星 模 式 如 图 9。2 所 示 。 它 包含 四 个 维 : 地 区 ， 
气温 ， 时 间 ， 降 雨量 ， 三 个 度量 : region_map〈 地 区 _ 地 图 )，area (面积 〉,count (计数)。 每 一 维 的 
概念 层次 可 由 用 户 或 专家 建立 ， 或 由 数据 的 聚 类 分 析 自 动 生成 。 图 9。3 展示 了 BC_weather 仓库 中 
每 一 维 的 概念 层次 。 





















































































































































































































































地 区 名 维 时 间 维 

检测 位 置 < 市 区 < 城市 < 省 小 时 < 天 < 月 < 季度 

气温 维 降雨 量 维 

( 冷 ， 温和， 炎热 ) call (气温 ) (干燥 ,适量 ， 湿 ) call (降雨 量 ) 
es C 冷 ssooodso 忆 于 民 

Goo ee C 温和 vowed 本 

Br C 炎热 se t= 





图 9。3 BC_weather 数据 仓库 每 一 维 的 概念 层次 P408 




















图 9。4 不 同 的 上 卷 操 作 后 的 概 化 地 区 图 P408 

















三 个 度量 中 ，area 和 count 是 数字 度量 ， 可 以 按 非 空间 数据 立方 体 的 计算 方法 加 以 计算 。 
region_map 是 空间 度量 ， 表 示 一 组 指向 有 关 地 区 的 空间 指针 。 由 于 不 同 的 空间 OLAP 操作 作用 于 
region_map 的 不 同 集合 , 因此 具有 挑战 性 的 问 着 十 于 汉 在 晴 计 作 炎症 好 区 的 人 并 操作 。 例如， 
两 个 不 同 的 基于 BC 气象 地 图 数据 (如 图 9。2) 的 上 卷 操作 ， 可 产生 两 个 不 同 的 地 区 地 图 ， 如 图 9。 
4 所 示 ， 其 中 每 一 个 都 是 对 图 9。2 中 大 量 小 的 (监测 ) 地 区 的 合并 结果 。4 
NA 的 空间 合并 ， 并 存储 到 对 应 的 空间 数据 立方 体 的 单元 中 ?” 管 案 是 

可 能 不 行 。 与 数字 度量 不 同 ， 人 BC 合并 后 地 区 地 图 需要 





























































































































































































































上 兆 存储 空间 。 这 样 我 们 面临 的 是 一 个 两 难 的 选择 ， 即 在 联机 计算 代价 和 存储 计算 度量 所 需 额 外 空 























间 之 间 的 选择 : 一 方面 空间 聚集 计算 中 需要 预先 计算 来 减少 大 量 无 用 计算 开销 ， 另 一 方面 聚集 空间 














结果 的 大 量 存储 负担 又 减弱 着 这 一 需要 。 
在 空间 数据 立方 体 的 构造 中 至 少 有 三 种 可 供 选择 的 空间 度量 的 计算 方法 。 


























国 在 空间 数据 立方 体 中 收集 存储 有 关 的 空间 对 象 指针 ， 但 不 执行 空间 度量 的 预计 算 。 其 实现 方 






































法 可 以 是 在 有 关 的 立方 体 单元 中 存储 一 个 指向 空间 对 象 指 针 集 合 的 指针 ， 必 要 时 可 在 空闲 时 执行 有 





关 空 间 对 和 象 的 空间 合并 (或 其 它 计 算 )。 这 一 方法 在 如 下 的 情况 下 不 失 为 好 的 选择 ， 当 仅 需 要 空间 








结果 显示 《〈 即 无 须 真 的 空间 合并 )， 或 者 在 任 一 指针 集合 中 没有 太 多 可 以 合并 的 地 区 ， 或 者 联机 空 























间 合 并 计算 速度 很 快 (近来 , 针对 快速 空间 OLAP 开发 出 了 一 些 高 效 的 空间 合并 方法 )。 由 于 OLAP 
的 结果 经 常用 于 联机 空间 分 析 和 挖掘， 因此 人 们 一 般 还 是 主张 将 一 些 空间 上 邻接 的 地 区 预先 合并 ， 














这 样 可 以 加 速 此 类 的 分 析 。 











四 在 空间 数据 立方 体 中 预先 计算 并 存储 一 个 粗略 近似 的 空间 度量 结果 。 在 假定 所 需 存储 空间 有 



























































限 的 情况 下 ， 若 只 需要 对 空间 合并 结果 的 粗略 浏览 或 大 致 估算 ， 此 方法 不 失 为 好 的 选择 。 例 如 ， 最 
小 边界 和 矩形 (MBR)， 可 由 两 个 点 表示 ， 它 可 以 作为 合并 地 区 的 粗略 估算 。 这 类 预计 算 的 结果 较 小 ， 






























































空闲 时 加 以 计算 。 



































并 可 快速 展示 给 用 户 。 若 对 特定 单元 需要 更 高 的 精度 ， 应 用 可 以 选择 预计 算 质量 较 高 的 结果 ， 或 在 











图 在 空间 数据 立方 体 中 有 选择 地 预先 计算 一 些 空间 度量 。 这 是 一 个 较为 灵活 的 选择 。 问 题 是 ， 
“应 选择 立方 体 的 哪 一 部 分 预先 计算 ? ”选择 可 以 在 cuboid 级 进行 即 或 者 对 选择 的 cuboid 的 每 一 
个 单元 预计 算 并 存储 每 一 个 可 合并 的 空间 地 区 ,或 者 cuboid 没 被 选择 则 不 做 任何 预计 算 。 通 常 cuboid 




























































































由 很 多 空间 对 象 组 成 ， 因 此 它 可 能 涉及 很 多 可 合并 空间 对 象 的 预计 算 和 存储 ， 不 过 这 其 中 有 些 可 能 
很 少 用 到 。 因 此 选择 要 在 较 细 粒 度 的 级 别 上 进行 : 检查 cuboid 中 的 每 一 组 可 合并 的 空间 对 象 ， 判 定 























是 否 需要 预计 算 。 这 里 判定 需要 考虑 的 因素 包括 合并 区 域 的 实用 性 《如 访问 频率 或 访问 优先 级 )， 





























共享 性 ， 以 及 空间 和 联机 计算 时 间 的 代价 权衡 。 








有 了 空间 数据 立方 体 和 空间 OLAP 有 效 支 持 ， 基 于 概 化 的 描述 性 空间 挖 气 ， 如 空间 特征 和 判别 





(discrimination)， 可 以 得 到 和 好 


9. 2. 2 空间 关联 分 析 











的 解决 。 








“如 何 挖掘 空间 关联 规则 ? ”与 事务 型 和 关系 型 数据 库 的 关联 规则 挖掘 一 样 ， 空 间 数 据 库 中 也 
可 以 挖掘 关联 规则 。 空 间 关 联 规则 形 如 A 一 B[S%，c%]， 其 中 A 和 B 空间 和 非 空 间 谓 词 的 集合 ，s% 





P410 



































表示 规则 的 支持 度 ，c% 表 示 规 则 的 的 可 信和 度 。 例 如 ， 下 面 是 一 个 空间 关联 规则 的 例 : 











此 规则 表明 80% 靠 近 体 育 中 心 的 学 校 同时 也 靠近 公园 ， 并 且 有 0。5% 的 数据 符合 这 一 规则 。 
各 种 各 样 的 空间 谓词 可 以 用 来 构成 空间 关联 规则 。 例 如 有 关 距 离 信息 “如 close to〈 临 近 ) 




















far_away (远离 )), 拓扑 关系 ( 妇 
(左边 ),west_of (西部 ))。 











中 intersect( 交 ),overlap( 重 辣 ) ,disjoin (分离 )), 和 空间 方位 (如 left_of 











由 于 空间 关联 规则 的 挖掘 需要 在 大 量 的 空间 对 象 中 计算 多 种 空间 关系 ， 因 此 其 代价 是 很 高 的 。 




















一 种 称 为 逐步 求 精 的 挖 据 优化 方法 可 用 于 空间 关联 的 分 析 。 该 方法 首先 用 一 种 快速 的 算法 粗略 地 对 
一 个 较 大 的 数据 集 进 行 一 次 挖掘 ， 然 后 在 裁减 过 的 数据 集 上 用 代价 较 高 的 算法 进一步 改进 挖掘 的 质 





里 。 




















为 保证 裁减 过 的 数据 集 能 够 满足 后 续 使 用 的 高 质量 挖掘 算法 对 数据 集 的 需要 ， 很 重要 的 一 点 是 
前 期 采用 的 粗略 挖掘 算法 必须 满足 超 集 覆 盖 特 性 〈superset coverage property): 即 它 保持 了 所 有 潜在 
的 答案 。 换 名 话说 ， 它 应 当 人 允许 假 正 测试 (false positive test)， 即 可 以 包括 一 些 不 属于 结果 集 的 数据 



































集 ; 不 应 当 人 允许 假 负 测 试 〈false negative test)， 即 它 可 能 排除 一 些 潜在 的 答案 。 



































为 了 挖掘 与 空间 谓词 close_to 有 关 的 空间 关联 规则 ， 我 们 可 以 通过 以 下 方法 首先 收集 一 些 满足 


最 小 文 持 闵 值 的 候选 数据 : 


















































加 使 用 一 定 的 近似 空间 计算 算法 ， 例 如 ， 可 以 用 最 小 边界 矩形 (minimum bounding rectangle) 
结构 〔 它 仪 涉 及 两 个 空间 点 ， 不 象 多 边 形 那 样 有 一 组 点 ); 























国 计算 放宽 后 的 空间 谓词 ， 如 g_close_to， 表 示 概 化 的 close to， 它 包括 了 close_to,touch, 和 








intersect 的 结果 。 











如 果 两 个 空间 对 象 紧密 相 邻 ， 那 么 其 最 小 边界 矩形 也 一 定 相 邻 ， 即 满足 g_close to。 但 反 过 来 





则 不 一 定 成 立 ， 如 果 最 小 边界 矩形 紧密 相 邻 ， 两 个 空间 对 象 可 能 相 邻 也 可 能 不 相 邻 。 这 样 最 小 边界 




















矩形 剪裁 对 相 邻 来 说 是 一 个 假 正 测试 ; 
步 的 处 理 。 通 过 这 一 预 处 理 ， 只 
算 方 法 加 以 处 理 。 











9. 2. 3 空间 聚 类 方法 


只 有 通过 初始 测试 的 数据 才 需 用 计算 代价 
有 在 近似 阶段 频繁 出 现 的 模式 ， 才 可 能 被 更 精细 、 






































更 高 的 算法 做 进 
















































































更 复杂 的 空间 计 















































空间 数据 聚 类 是 要 在 一 个 较 大 的 多 维 数据 集中 根据 上 距离 的 计算 找 出 筷 ， 或 稠密 区 域 。 其 实 第 作 
章 对 空间 聚 类 方法 已 有 全 面 的 介绍 ， 因 为 聚 类 分 析 通 常 考虑 的 就 是 空间 数据 聚 类 的 例子 和 应 用 。 因 
此 对 空间 聚 类 感 兴趣 的 读者 可 参见 第 8 章 。 








9. 2. 4 空间 分 类 和 空间 趋势 分 析 





空间 分 类 指 分 析 空 





接 。 
例 9. 7 空间 分 类 : 
分 类 的 重要 的 空间 上 的 
等 等 。 这 些 特性 可 


则 的 形式 ， 如 第 7 章 所 述 。 



























































如 有 大 学 ， 有 州 际 高 速 公 路 ， 靠 近 湖泊 





























空间 趋势 分 析 处 理 的 是 另 一 类 问题 : 根据 茶 空 间 维 找 
间 上 的 变化 ， 如 在 时 间 序 列 数据 中 时 态 模式 的 变化 。 空 间 趋势 分 析 ， 
间 上 的 非 空间 与 空间 数据 的 变化 。 例 如 ， 当 离 城市 








LH 
LI 


变化 趋势 。 通 常 ， 


空间 玲 代 























趋势 分 析 考 虑 的 
了 了 时间， 研究 的 是 空 


间 对 象 导出 与 一 定 空间 特征 有 关 的 分 类 模式 ， 如 郊区 ， 高 速 公 路 ， 河 流 的 邻 


假设 需要 根据 平均 家 庭 收 入 把 地 区 按 贫 富 分 类 。 为 此 要 找 出 决定 一 个 地 区 
因素 。 空 间 对 象 有 许多 特性 
于 有 关 的 分 析 ， 找 出 有 意义 的 分 类 模式 。 此 类 分 类 模式 可 以 表示 为 决策 树 或 规 


或 海洋 ， 








三 | 
征 








时 








PP 心 越 来 越 远 时 ， 我 们 要 分 析 经 济 形 势 上 





变化 趋 


势 ， 或 离 海洋 越 来 越 远 时 ， 气 候 与 植物 的 变化 趋势 。 对 此 类 分 析 ， 一 般 要 在 空间 数据 结构 和 空间 访 


问 方法 之 上 ， 使 用 回归 和 相关 分 析 方 法 。 


E 间 一 起 变化 的 。 例 如 ， 高 速 路 和 城市 中 的 交通 流量 是 


还 有 很 多 应 用 其 模式 是 随时 间 和 


ea 








和 空间 都 有 关 的 。 气 象 模式 也 是 与 时 间 和 空间 紧密 相关 的 。 虽 然 帮 



































与 时 间 



































一 些 研究 ， 但 时 空 数据 挖掘 的 研究 远 不 够 充分 。 


= 























9. 2. 5 光栅 数据 库 挖掘 








空间 数据 库 系统 通常 处 理 的 是 由 

















了 关 的 方法 与 应 用 ， 需 要 在 未 来 做 更 进 








N| 














的 向 量 数据 。 这 类 数据 的 典型 例子 包 提 





6 地 











空间 数据 是 数字 光栅 (图 象 ) 形式 的 数据 ， 如 卫星 图 象 ， 遥 感 数据 ， 计 算 机 X 线 断 层 摄影 


步 的 





图 ， 设 计 








研究 光栅 或 图 象 数 据 库 中 的 数据 挖 扬 方 法 是 十 分 重要 的 。 光 栅 和 图 象 数 据 的 挖 








多 媒体 数据 挖掘 的 章节 中 加 以 介绍 。 


9. 3 多 媒体 数据 挖掘 




















攻 








库 ， 和 因特网 数据 库 。 








"什么 是 多 媒体 数据 库 ? "多 媒体 数据 库 是 指 存储 和 管 
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A 














， 上 恒 























因特网 的 流 














本 节 有 关 











多 媒体 数据 挖掘 主要 考虑 的 是 


区 








象 数据 的 挖 据 。 序 列 数据 挖掘 的 下 














图 象 和 






































的 日 益 向 见 。 
音频 视频 数据 库 ， 人 类 基 


E 空 间 分 类 和 空间 趋势 分 析 方 面 有 
空间 分 类 和 趋势 分 析 的 方法 与 应 用 ， 特 别 是 与 时 间 
九 。 


点 ， 线 ， 多 边 形 〈 区 域 )， 和 其 组 合 如 网 络 或 分 片 〈partition) 组 成 
白质 分 子 链 的 3-D 排列 。 然 而 大 量 存在 的 
图 象 等 。 
方法 将 在 下 面 有 关 


大 量 多 媒体 对 象 的 数据 库 , 如 音频 数据 ， 
到 象 数据 , 视频 数据 , 序列 数据 , 以 及 超 文 本 数据 , 包含 文本 , 文本 标记 (text markup), 和 链接 (linkage)。 
行 和 普及 ， 多 媒体 数据 库 系统 变 旧 
多 媒体 数据 库 系 统 包 括 NASA's EOS 〈 地 球 观测 系统 )， 各 种 


典型 的 
因数 据 





究 在 9。4 节 和 第 


10 章 有 关 生 物 信息 中 数据 挖掘 应 用 一 节 中 介绍 。 超 文本 数据 挖掘 在 9。6 节 万 维 网 挖掘 中 讨论 。 本 
节 介 绍 一 些 多 媒体 数据 挖掘 的 方法 ， 包 括 多 媒体 数据 中 的 相似 搜索 ， 多 维 分 析 ， 分 类 和 预测 分 析 ， 




















多 媒体 数据 的 关联 挖掘 。 





9. 3. 1 多 媒体 数据 的 相似 搜索 


"在 多 媒体 数 ] 
对 多 媒体 数据 相似 搜 





索 ， 主 
































检索 系统 ， 它 支持 基于 图 象 内 容 的 检索 ， 如 











上 二 


可 以 是 很 灵活 随意 的 事情 。 
在 很 多 应 用 中 都 是 需要 的 。 




















= 



































据 库 中 搜索 相似 数据 ， 既 可 以 基于 数据 
要 考虑 两 种 多 媒体 标 引 和 检索 系统 ; 
在 图 象 描述 之 上 建立 标 引 和 执行 对 象 检索 ， 如 关键 字 ， 标 题 ， 尺 寸 ， 创 建 时 间 等 ; 2) 基于 内 容 的 
颜色 构成 ， 质 地 ， 形 状 ， 对 象 ， 和 小 波 变换 等 。 
述 的 检索 车 手工 完成 是 很 费力 的 。 若 自动 完成 ， 检 索 结果 质量 通常 较 差 : 例 如， 对 攻 
基于 内 容 的 检索 使 












































述 ， 也 可 以 基于 数据 内 容 ? "此 言 不 错 。 


(1) 基于 描述 的 检索 系统 ， 主 要 是 






































视觉 的 特征 标 














在 基于 内 容 的 检索 系统 中 ,通常 有 
和 图 象 特 
本 相似 的 图 象 。 其 做 法 是 把 从 样本 中 提取 
已 经 提取 出 并 在 图 象 数据 库 中 已 经 索引 过 
样本 图 象 近似 的 图 象 。 图 
把 其 转换 为 特征 向 量 ， 与 数据 库 中 已 有 的 图 
括 医疗 诊断 ， 气 象 预报 ，TV 制作 ， 针 对 图 
(Query By Image Content, 按 图 象 内 
时 文 持 基 于 内 容 和 基于 描述 的 检索 。 







































































































































































征 描述 查询 (image feature specification queries)。 


的 图 象 
象 特 征 描 述 查 询 是 指 给 出 图 














基于 图 象 样 














引 轿 






































基于 
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象 特征 向 量 








寺 征 向 量 相 比较 。 





象 的 Web 搜索 引擎， 
容 查询 )， 同 时 文 持 样本 查询 和 图 象 特征 











人 们 已 经 提出 了 几 种 在 图 象 数据 库 ， 











基于 氏 





名 














象 特征 标识 

















国 基于 颜色 直方 图 的 特 4 
括 了 基于 的 图 象 颜色 构成 的 颜色 直方 图 
于 此 方法 中 并 不 包含 任何 有 关 形 状 ， 位 置 ， 






















































































以 及 


3 








C 





的 相似 检索 方法 : 
是 标识 (color histogram-based signature ); 此 方法 中 ， 医 





中 忽略 的 图 象 




















或 质地 的 信息 ， 


包含 极为 不 同 的 形状 或 质地 ， 这 样 在 语义 上 可 以 是 完全 不 相关 


国 多 特征 构成 的 特征 标识 (multifeature composed signature ): 此 方法 中 ， 图 象 的 特征 标识 





个 特征 的 组 成 : 颜色 直方 网 ， 形 状 ， 位 置 ， 
后 将 各 结果 综合 导出 总 的 结果 。 多 维 的 基于 
同样 特征 的 图 象 。 因 此 它 可 用 于 相似 图 象 的 






















































































因此 


商务 等 。 




















述 查 询 。 也 





























的 。 


k 有 相似 颜 











名 











象 赋 本 
象 并 基于 特征 相似 检索 对 象 ， 这 


定 图 象 样 





关键 字 


本 的 查询 (image sample-based queries ) 
图 象 样本 查询 是 指 找 出 所 有 与 给 
的 特征 向 量 (feature vector) (或 特征 标识 (signature)) 与 
基于 这 一 比较 结果 ， 可 以 得 到 与 
象 的 特征 描述 或 概括 ， 如 颜色 ， 结 构 ， 或 形状 ， 
匹配 。 基 于 内 容 的 检索 的 有 广泛 的 用 途 ， 包 
些 系统 如 QBIC 
有 系统 同 

















象 的 特征 标识 包 
的 尺度 〈scale) 或 方位 (orientation)。 




















色 构 成 的 两 幅 








图 象 可 以 








由 多 














和 结构 。 通 常 ， 可 以 对 每 二 个 特征 定义 其 距离 函数 然 


内 容 的 检索 通常 使 
搜索 。 


国 基于 小 波 的 特征 标识 〈《waveletrbased signature ): 本 方法 








识 。 小 波 可 以 在 


个 只 


统 




































































































































































用 一 个 或 几 个 探 






































使 用 了 图 象 的 小 波 系 数 作为 起 
的 框架 内 ”表示 形状 ， 结 构 和 位 置 等 信息 。 这 将 改进 效率 并 减少 对 多 












































上 特征， 来 搜索 包含 


村 征 标 




















个 特征 搜索 的 需要 与 第 二 种 方法 不 同 )。 然 而 ， 由 于 此 方法 对 整个 图 象 只 计算 一 个 特征 标识 ， 它 
可 能 无 法 识别 出 虽 包 含 相同 对 象 但 对 象 位 置 或 尺寸 不 同 的 图 象 。 

田 带 有 区 域 粒度 的 小 波 特征 标识 (wavelet-based signature with region-based granularity): 此 方法 
中 ， 特 征 标 识 的 计算 和 比较 是 在 区 域 粒度 上 进行 ， 而 不 是 在 整个 图 象 上 。 这 是 基于 如 下 的 结论 : 相 
同 的 图 象 可 能 包含 相同 的 区 域 ， 但 一 幅 图 和 象 中 一 个 区 域 可 以 是 另 一 幅 图 象 的 匹配 区 域 的 变换 或 伸 
缩 的 结果 。 因 此 ， 查 询 图 象 Q 和 目标 图 象 工 之 间 的 相似 计算 可 定义 在 由 Q 和 了 相 匹配 的 区 域 所 履 
盖 的 两 幅 图 象 的 面积 碎片 上 进行 。 这 种 基于 区 域 相 似 的 搜索 可 以 找 出 这 样 的 图 象 ， 它 们 包含 相似 对 
象 ， 但 这 些 对 象 可 以 是 经 过 变换 或 伸缩 过 的 。 








9. 3. 2 多 媒体 数据 的 多 维 分 析 


“可 和 否 为 多 媒体 数据 分 析 构 造 数据 立方 体 ?” ”为 进行 大 型 





统 的 从 关系 数据 中 构造 数据 立方 体 的 方法 ， 
可 包含 针对 多 媒体 信息 的 维和 度量 ， 如 颜色 











| 和 构造 
和 形状 。 





去 设 训 


， 质 地 ， 





























4 多 媒体 数据 库 的 多 维 分 析 ， 可 以 按 传 
出 多 媒体 数据 立方 体 。 多 媒体 数据 立方 体 


这 里 先 看 一 个 称 为 MultiMediaMiner 的 多 媒体 数据 挖掘 系统 原型 , 它 是 在 DBMiner 系统 上 扩展 
了 处 理 多 媒体 数据 的 功能 。MultiMediaMiner 系统 测试 用 的 一 个 样本 数据 库 构 成 如 下 : 每 个 















































了 两 个 描述 子 : 特征 
数据 库 中 存储 的 是 描述 子 信息 。 
avi，mpeg 等 )， 一 组 引 
视频 浏览 的 说 明 。 特 征 



























































2 小 波 分 析 见 3.4.3 节 的 讨论 。 


述 子 和 轮廓 描述 子 〈layout descriptor)。 原 始 图 
述 信息 包括 
| 用 这 一 图 象 的 Web 页 面 
述 子 是 一 组 针对 每 一 个 可 视 特征 的 向 量 。 


图 象 文件 名 ， 图 
《 即 父 




















象 URL， 医 


多、 














务 
多 











象 类 


不 直接 存储 在 数据 
型 (如 gif jpeg， 











URL)， 一 组 关键 字 ， 以 及 用 户 界 面 对 图 


图 象 包含 
过 中 ， 
bmp, 
象 和 


























主要 的 向 量 


时 是 颜色 向 量 








， 包 含 可 





达 $12 色 (R%G%B 为 8%8%8) 的 颜色 直方 











名 








， 一 个 MFC (Most Frequent Color) 问 量 ， 和 一 个 


MFO (Most Frequent Orientation) 向 量 。MFC 和 MFO 分 别 对 五 个 最 常用 的 颜色 和 五 个 最 常见 方位 
包含 了 五 个 颜色 中 心 值 和 五 个 边 方位 形 心 。 边 方位 为 0"，22.5"，45"，67.5"，90"， 等 等 。 轮 廓 描述 

















子 包 含 颜 色 轮 廓 向 量 和 边 轮 局 




































































向 量 。 无 论 原来 尺寸 大 小 ， 所 有 图 象 均 被 赋予 一 个 8%8 的 栅 格 。 对 
64 个 单元 中 的 每 一 个 的 最 常用 颜色 存储 在 颜色 轮 廊 向量, 对 每 一 个 单元 中 的 每 一 方位 的 边 数 存储 在 
边 轮 廓 向 量 。 其 它 尺 寸 的 栅 格 ， 如 4%4，2%2 和 1%1， 可 以 很 容易 地 导出 。 



































Image Excavator( 图 象 挖 抉 器 ) 是 MultiMediaMiner 的 组 成 部 分 ， 它 利用 图 象 的 上 下 文 信息 ， 如 














Web 页 面 中 的 HTML 标记， 可 以 推 











字 维 的 概念 层次 。 



































肝 出 关键 字 。 通 过 遍历 联机 目录 结构 ， 如 Yahoo! 目 录 ， 可 以 建 
立 对 应 目录 结构 的 关键 字 层次 ， 从 中 可 以 方便 地 找到 图 象 。 在 多 媒体 数据 立方 体 中 它 可 以 作为 关键 











“一 个 多 媒体 数据 立方 体 可 以 有 什么 样 的 维 ? ”多 媒体 数据 立方 体 可 以 有 很 多 维 。 下 面 是 一 些 





这 方面 的 例子 : 图 象 的 尺寸 或 视频 的 字 节 ; 
































图 象 或 视频 的 建立 时 间 (或 最 新 更 新 时 间 );， 图 象 或 视 





频 的 格式 类 型 ， 按 秒 计算 的 祯 序列 时 间 ;， 图 象 或 视频 的 因特网 域 ， 引 用 图 象 或 视频 的 页 的 因特网 域 


( 父 URL); 边 - 方 位 维 ， 等 等。 很 多 数字 维 的 概念 











或 颜色 ， 可 预先 加 以 定义 。 

















层次 可 以 自动 加 以 定义 。 对 其 它 维 ， 如 因特网 域 























多 媒体 数据 立方 体 的 建立 有 助 于 多 媒体 数据 的 基于 视觉 内 容 的 多 维 分 机 ， 和 多 种 知识 的 挖掘 ， 
包括 汇总 ， 比 较 ， 分 类 ， 关 联 ， 和 聚 类 。MultiMediaMiner 的 分 类 模块 和 其 输出 如 图 9。5 所 示 。 














多 媒体 数据 立方 体 对 多 媒体 数据 的 多 台 


立方 体 中 ， 我 们 要 考虑 颜色 ， 方 位 ， 结 构 ， 








图 9。5 MultiMediaMiner 分 类 模块 的 输出 P415 




























































































色 。 在 设计 数据 立方 体 时 若 














多 。 若 不 如 此 ， 则 会 使 对 图 

















9. 3. 3 多 媒体 数据 的 分 类 和 预测 分 析 








分 类 和 预测 分 析 已 经 


























学 的 研究 。 目 前 图 象 数据 挖掘 应 用 “中 决策 树 分 类 是 最 基本 的 数据 挖 据 方法 。 
的 天 空 图 象 为 训练 集 ， 我 们 可 以 构造 出 模型 
的 特性 如 大 小 ， 面 积 ， 密 度 ， 图 象 的 瞬间 和 方位 。 基 于 这 一 模型 可 以 对 














例 9. 8 以 天 文学 家 认真 分 类 过 上 





星 ， 以 及 其 它 恒 星体 ， 基 了 
























































法 去 识别 金星 上 的 火山 














数据 预 处 理 在 图 象 数 据 挖 扬中 
特征 抽取 (feature extractor)。 除 了 在 模式 识别 中 使 





















































EE 分析 是 很 有 用 的 模型 。 然 而 ， 必 须 注意 到 实现 一 个 维 数 
很 大 的 数据 立方 体 是 极其 困难 的 。 这 一 困难 情况 对 多 媒体 数据 立方 体 而 言 尤为 如 此 。 在 多 媒体 数据 
关键 字 ， 等 等 多 维 属性 。 但 是 这 其 中 的 很 多 属性 是 集合 
值 而 不 是 单 值 。 例 如 ， 一 图 象 可 能 对 应 一 组 关键 字 。 它 可 能 包含 一 组 对 象 ， 每 一 对 象 都 对 应 一 组 颜 
以 每 一 个 关键 字 作 为 一 维 ， 或 以 每 一 种 颜色 作为 一 维 ， 这 将 导致 维 数 过 
象 的 建 模 范围 过 于 粗糙 ， 有 限 ， 和 不 精确 。 如 何 设 计 出 既 能 满足 效率 的 
要 求 ， 又 能 有 足够 的 表达 能 力 的 多 媒体 数据 立方 体 ， 是 个 芭 待 研究 的 问题 。 





































































































j 于 多 媒体 数据 挖掘 ， 尤 其 在 科学 研究 中 ， 如 天 文学 ， 地 震 学 ， 和 地 理科 





























日 于 识别 星系 ， 星 




















由 望远镜 和 太空 探测 器 收集 的 大 量 的 图 象 进行 处 理 ， 以 发 现 新 的 天 体 。 人 们 已 经 成 功 地 运用 这 一 方 








是 相当 重要 的 ， 它 包括 数据 清洗 ， 数 据 聚 焦 〈 data focusing)， 和 









































] 的 标准 的 方法 如 边 探 测 和 Hough 变换 外 ， 还 可 























以 探索 新 的 技术 ， 如 把 图 象 分 解 为 特征 向 量 ， 或 采用 概率 模型 处 理 不 确定 性 。 由 于 图 象 数 据 量 是 很 
大 的 ， 需 要 很 强 的 处 理 的 能 力 ， 因 此 需要 使 用 并 行 和 分 布 处 理 技术 。 








图 象 数据 的 分 类 和 聚 类 与 
据 分 析 方 法 可 以 用 于 图 象 数 据 的 挖掘 过 程 。 























9. 3. 4 多 媒体 数据 中 的 关联 规则 挖掘 





“多 媒体 数据 中 可 以 挖 扩 





关联 规则 。 人 至 少 包 含 以 下 三 类 : 
四 图 象 内 容 和 非 图 象 内 容 特征 间 的 关联 : 如 规则 “如 果 照 片 的 上 半 部 分 的 50% 是 兰 色 ， 那 它 很 








可 能 是 天 空 ”” 属 于 此 类 ， 





























加 什么 样 的 关联 ? ”在 图 

















和 分 类 方法 ， 包 括 基于 决策 树 的 分 类 ， 可 参见 第 七 章 f 





4 讨论 。 





























图 象 分 析 和 科学 数据 挖 气 有 紧密 的 联系 ， 因 此 图 象 分 析 技 术 和 科学 数 














象 和 视频 数据 库 中 可 以 挖掘 涉及 多 媒体 对 象 的 











因为 它 把 图 象 的 内 容 和 关键 字 无 等 关联 在 一 起 。 


国 与 空间 关系 无 关 的 图 象 内 容 的 关联 : 如 规则 “如 果 一 幅 
因为 关联 考虑 的 都 是 图 
国 与 空间 关系 有 关 的 图 象 内 容 的 关联 : 如 规则 “如 果 一 个 红色 和 拖 形 是 在 两 个 


可 能 也 包含 一 个 红 


色 圆 形 ” 属于 此 类 ， 








那么 很 可 能 在 下 面 

一 起 。 
要 挖 据 多 媒体 

频率 高 的 模式 。 
“多 媒体 数据 





存在 一 个 大 的 椭 





对 象 间 的 关联 ， 我 人 











库 ， 





的 关联 规则 挖 扩 











置 。 这 样 可 能 存 如 








的 关联 。 在 和 














但 在 更 细 的 分 辩 率 
的 方法 。 即 ， 我 介 
小 支持 度 阔 值 的 图 
式 , 不 可 能 在 细 
而 又 不 损失 数据 挖 
方法 论 。 

第 二 ， 由 于 包 
视 同 一 对 象 的 重复 
同 的 。 这 与 事务 















































“buy_milk( 买 牛奶 )” 这 同一 事实 。 


做 相应 的 调整 。 
第 三 ， 在 多 媒 
些 特 征 对 挖掘 对 象 











数据 库 中 的 情形 完 
因此 多 媒体 关联 及 


下 则 是 不 同 的 。 








圆 形 对 象 ”， 属 于 此 类 ， 
] 可 以 把 每 一 个 图 
加 与 事务 数据 库 中 的 有 1 


一 个 图 象 可 以 包含 多 个 对 象 ， 每 个 对 象 可 以 有 许多 特 
EE 大量 站 








象 内 容 。 
































图 片 包 含 两 个 兰 色 正方 形 ， 


因为 它 把 图 象 中 对 象 与 空 
象 看 作 一 个 事务 ， 从 


上 F 么 不 同 ? er 
征 ， 如 颜色 ， 形 状 ， 结 构 ， 关 键 字 ， 和 空 











那么 它 很 











» 
pa 


黄色 正方 形 之 间 ， 
间 关 系 关 联 在 




















找 出 不 同 图 象 间 出 现 











些 细微 差异 。 


首先 ， 


x 间 位 






































生 : 














这 种 





多 级 分 























状 率 挖掘 策 























掘 结果 的 质量 和 完整 。 








| 此 得 出 





种 在 大 规模 多 媒 








含 多 个 重复 出 现 对 象 的 图 片 是 


出 现 问题 。 例 如 ， 一 


I 
田 

















包含 两 个 金色 圆 
全 不 同 ， 如 一 个 人 买 一 加 仓 牛奶 和 买 
量 的 定义 ， 如 支持 度 和 可 人 











图 象 分 析 中 的 
形 的 图 

















民 多 情况 下 ， 两 个 图 象 的 某 个 特征 在 茶 
因此 ， 需 要 一 种 改进 分 关 
] 可 以 首先 在 一 个 相对 较 粗 的 分 状 率 下 控 
象 做 进一步 的 更 细 分 辩 率 下 的 挖掘 。 这 是 
级 的 分 辨 率 下 出 现 。 


一 个 重要 特征 ， 
片 与 只 有 一 个 


分 辨 率 级 别 下 是 相同 的 ， 


(progressive resolution ) 的 逐步 求 精 
加 出 现 频率 高 的 模式 ， 然 后 对 那些 通过 最 
1 于 在 粗 一 级 分 交 
略 极 大 地 降低 了 
体 数 据 库 中 挖掘 关联 的 高 


和 率 下 不 频繁 出 现 的 模 
总 体 数据 挖掘 的 代价 ， 
效 的 











在 关联 分 析 中 不 应 忽 
圆 形 的 图 片 是 截然 不 
两 加 仑 通常 都 视 为 















































洱 








如 











体 对 象 间 通 常 存 在 学 
































状 ， 结 构 和 关键 字 
媒体 挖掘 显得 十 分 重 





9. 4 时 序 


时 间 变 化 的 值 或 时 
普遍 ， 如 股票 市 场 
一 种 序列 数据 库 。 
没有 。 例 如 ，Web 
序列 数据 库 的 挖掘 
周期 模式 挖掘 。 
































9. 4. 1 趋势 分 析 


E 者 重要 的 罕 
关联 和 相关 性 非常 有 用 。 空 





间 关 系 ， 








间 关 系 ， 如 之 上 ， 之 下 ， 之 间 
与 其 它 基 于 内 容 的 多 媒 








言 度 ， 都 需要 


， 附 近 ， 左 边 等 。 这 
体 特征 ， 如 颜色 ， 形 























和 镁 
"Ws 








重要 。 


序列 数据 的 挖掘 


“什么 是 时 序 (time_series) 数据 库 ? 什么 是 





起 可 以 形成 有 趣 的 关联 。 这 样 空 





x 间 数据 挖 








庆 





间 组 成 的 数据 




















口 
口 口 








的 每 日 波动 ， 动 态 产 








D 





直通 第 是 在 
加 工 








过 程 ， 科 学 实验 ， 医 学 治 


时 方法 和 拓扑 空 





# 间 关系 特性 对 多 


序列 〈sequence) 数据 库 ? ”时 序数 据 库 是 指 有 随 
等 时 间 间 隔 测 得 的 数据 。 很 多 应 用 中 时 序数 据 库 很 
疗 ， 





众人 = 


时 序数 据 库 也 





























让 


然而 序列 数据 
页 面 过 历 
的 几 种 重要 内 容 ， 























是 指 由 有 序 事 件 
包括 趋势 分 析 ， 相 似 搜索 ， 








于 -村 。 和 人 








序列 组 成 的 数据 库 





， 它 可 以 有 时 间 标 记 ， 也 可 以 
序列 是 一 种 序列 数据 ， 但 可 能 不 是 时 序数 据 。 本 节 将 介绍 时 序数 据 库 和 











序列 模式 挖 提 


明和 与 时 间 有 关 数 据 的 











时 
此 函数 可 以 图 示 为 一 


价格 





图 9。6 时 





“如 何 处 理 时 
国 长 期 或 趋势 
这 种 

















字 变 量 Y, 表示 股票 中 

















名 


个 时 序 





图 ， 如 











时 间 


市 场 中 一 股票 的 每 日 


收盘 价 ， 








9。 6 所 示 ， 





它 描述 了 
子 板块 股票 
十 日 平均 移动 


























序数 据 : 电子 板块 的 股票 价格 随时 间 的 变动 P418 





序数 据 ? ”目前 一 般 有 

















变化 (trend movement): 











变化 反映 为 一 种 直 4 势 晶 线 ， 
































国 四 环 运动 或 循环 ` 变 化 (cyclic movement or cyclic variations): 主 





线 或 趋势 线 的 典型 方法 包 操 





攻 | 


或 趋势 线 。 例 如 ， 

















加 权 移 动 平均 方法 和 最 小 二 




















它 可 以 表示 为 时 间 t 的 函数 ， 
个 点 随时 间 变 化 的 情 


要 指 循环 性 , 


即 Y=F (t)。 





< 


况 。 


四 种 主要 的 变化 成 分 用 于 特 化 时 序数 据 : 
它 用 于 反映 一 般 变 化 方向 ， 其 时 序 图 是 在 较 长 时 间 间 隔 上 
9。6 的 趋势 





线 由 图 中 的 虚线 
详 见 下 面 的 讨论 。 
趋势 线 或 曲线 在 

















乘法 六 





























长 期 时 间 内 呈 摆 动 迹象 ， 它 可 以 是 也 可 以 不 是 周期 性 的 。 即 在 等 时 间 间 隔 之 间 ， 循 环 不 需要 沿 着 同 
样 的 模式 演进 。 
四 季节 性 运动 或 季节 性 变化 (seasonal movements or seasonal variations): 它 反映 的 是 每 年 都 重复 
出 现 的 事件 ， 如 情人 节 前 巧克力 和 鲜花 会 的 销量 突然 上 升 ， 或 在 圣诞 节 节 前 储藏 商品 的 销售 会 突然 
增加 。 换 句 话 说， 季节 性 运动 是 指 同一 或 近似 同一 的 模式 ， 在 连续 几 年 的 有 关 月 份 期 间 重 复出 现 。 
田 非 规则 或 随机 变化 (irregular or random movements): 它 反 映 的 是 随机 或 偶然 事件 零星 时 序 变 
化 ， 如 劳工 需求 ， 洪 水 ， 或 企业 内 发 生 的 人 事变 动 等 。 
以 上 有 关 趋 势 的 ， 循 环 的 ， 重 复 的 ， 和 非 规则 的 运动 ， 可 以 分 别 用 变量 T，C，S, I 表示 。 时 
序 分 析 也 可 以 指 将 时 序 分 解 为 以 上 四 个 基本 运动 的 分 析 。 时 序 变 量 Y 可 以 表示 为 四 个 变量 的 积 ( 即 
Y=T%C%S%I)， 或 四 变量 之 和 。 其 选择 通常 是 凭 经 验 的 。 
“对 了 给 定 一 组 值 ( 即 ，yiyy2y3,…)， 如 何 确定 数据 的 趋势 ? ”确定 趋势 的 常见 方法 是 按 如 下 
的 算术 平均 式 序列 ， 计 算 n 阶 的 移动 平均 值 (a moving average of order n ): 
P419 
移动 平均 可 以 降低 数据 集中 的 变化 总 量 。 因 此 用 移动 平均 替代 时 序 ， 可 以 减少 不 希望 出 现 的 波动 ， 
故 它 也 称 为 平滑 的 时 序 (smoothing of time series)。 如 果 在 序列 〈9。3) 中 使 用 加 权 算 术 平 均 ， 则 称 
为 n 阶 的 加 权 移 动 平均 (weighted moving average of order n)。 
例 9. 9 给 定 九 个 值 的 序列 ， 我 们 可 计算 出 3 阶 的 移动 平均 ， 及 其 权重 为 1，4，1) 的 加 权 移 
动 平均 。 计 算 结 果 可 以 记录 在 按 表 格 中 ， 其 中 移动 平均 的 每 一 个 值 是 相 邻 三 值 平均 ， 加 权 移 动 平均 
的 每 一 个 值 是 相 邻 的 三 值 加 权 平 均 。 










































































































































































































































































初始 数据 : 
3 阶 的 移动 平均 : 
3 阶 的 加 权 (1，4，1) 移动 平均 : 














第 一 个 加 权 平 均值 计算 为 ”〈P420)。 加 权 平 均 通 常 对 中 间 元 素 赋予 较 大 的 权重 ， 以 便 抵 消 平 


























移动 平均 会 丢失 系列 中 的 头 尾数 据 ， 由 此 有 时 会 生成 在 原始 数据 中 不 会 出 现 的 循环 或 其 它 变 化 
趋势 ， 并 且 它 可 能 受 一 些 极端 数据 的 影响 。 对 极端 数据 的 影响 ， 可 通过 采用 如 图 9.9 所 示 的 适当 权 
的 加 权 移 动 平均 的 方法 降低 其 负面 影响 。 

采用 适当 的 阶 数 的 加 权 移 动 平均 ， 可 以 消除 数据 中 的 循环 ， 重 复 和 非 规 则 的 模式 ， 而 只 保留 趋 
势 变 化 。 

“还 有 其 它 计 算 趋 势 的 方法 吗 ? ”答案 是 肯定 的 。 其 中 之 一 是 所 谓 的 徒手 法 (free-hand method )， 
它 是 基于 用 户 的 判断 画 一 根 近似 曲线 或 直线 去 吻合 一 组 数据 。 这 一 方法 代价 很 大 ， 且 只 对 大 规模 数 
据 挖掘 可 靠 。 另 一 种 是 最 小 二 乘法 , 其 中 以 最 吻合 的 曲线 C 作为 最 小 二 乘 曲线 , 即 曲 线 具有 P420 的 
最 小 值 ， 其 中 di 的 偏差 或 误差 是 指点 〈xi yi) 的 值 丰 与 对 应 曲线 C 的 值 之 间 的 差 值 。 

“对 季节 性 波动 ， 是 否 有 调整 数据 的 方法 ? ”在 许多 商业 交易 中 ， 存 在 预期 的 季节 性 波动 ， 如 
圣诞 节 期 间 的 旺销 。 因 此 ， 对 趋势 和 循环 数据 分 析 ， 很 重要 的 一 点 是 识别 此 类 重复 性 变化 ， 并 对 数 
据 “ 反 季节 化 〈deseasonalize) ”。 为 此 ， 引 入 季节 指数 〈seasonal index) 的 概念 ， 用 一 组 数字 表示 
一 年 中 某 些 月 份 某 变量 的 相关 值 。 例 如 ， 如 十 月 ， 十 一 月 ， 十 二 月 的 销售 分 别 是 全 年 平均 月 销量 的 
80%，120%，140%， 那 么 80，120，140 就 是 本 年 度 的 季节 指数 。 若 原始 的 每 月 数据 由 对 应 的 季节 
指数 去 除 ， 其 结果 数据 被 称 为 是 反 季 节 化 的 ， 或 者 是 对 季节 变量 调整 过 的 。 

反 季 节 化 数据 可 以 针对 趋势 做 进一步 的 调整 ， 即 按 对 应 的 趋势 值 去 除 这 些 数据 。 而 且 ， 合 适 的 
移动 平均 可 以 平滑 掉 的 非 规则 的 变化 ， 而 上 只 剩 下 循环 变化 做 进一步 的 分 析 。 如 果 循 环 呈 现 周期 或 近 
似 周 期 ， 则 可 以 按 引 入 季节 性 指数 的 同样 方法 引入 循环 指数 (cyclic index )。 

最 后 ， 非 规则 或 随机 变化 可 以 通过 针对 趋势 ， 季节 和 循环 变化 的 数据 调整 ， 加 以 估计 。 一般 地 ， 
小 偏差 出 现 的 频率 高 ， 大 偏差 出 现 的 频率 低 ， 遵 从 正 态 分 布 。 

在 实际 中 ， 首 先 掌握 时 序 图 和 量化 估算 出 长 期 趋势 ,重复 变化 ， 和 循环 变化 的 规律 的 ， 将 获 益 
匪 浅 。 原 因 是 它 有 助 于 选择 合适 的 方法 去 做 分 析 和 有 助 于 全 面 理解 结 果 数 据 。 
通过 对 趋势 ， 循 环 ， 季 节 和 非 规则 成 分 的 运动 的 系统 分 析 ， 使 人 们 可 以 在 较 合 理 的 情况 下 ， 制 
定 出 长 期 或 短期 的 预测 〈 即 预报 时 序 )。 
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9. 4. 2 时 序 分 析 中 的 相似 搜索 


“什么 是 相似 搜索 〈similarity search) ? ”通常 数据 库 查询 是 要 找 出 符合 查询 的 精 古 
是 找 HH 
上 与 给 定 序列 相似 的 所 有 数据 序列 ， 
融 市 
消耗 分 析 ) 
transformation): 从 时 间 域 (time domain) 


似 搜索 与 之 不 同 , 它 
是 找 昌 
相似 的 序列 。 对 
据 库 (如 能 量 


用 里. 


数据 变换 (data 





个 
Sz 























有 





对 时 序数 据 的 本 


“那么 为 什么 需 

E 交 变换 经 常用 于 从 时 间 域 到 频 
入 数据 无 关 。 
由 于 在 时 间 域 中 两 个 信号 的 距离 与 频率 域 中 欧 氏 距离 类 似 ， 所 以 DTF 可 以 出 
(first few coefficients ) 表现 突 
计算 出 实 阿 
且 数 据 经 过 变换 ， 比 如 DFT， 如 何 进 行书 
叶 系 数 构造 一 个 多 维 





了 
先 确 定 的 ， 与 输 
变换 (DWT) 2。 
挥 ， 在 头 系数 


我 们 可 以 
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示 距 


























与 给 定 查 询 序列 最 





所 二 
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场 的 分 析 〈 如 股 
等 ， 时 





:证 辣 a 


分 析 ， 通 常 采 月 


变换 数据 ? ” 许 














多 信和 号 























出 。 
离 的 下 限 。 
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引 。 


率 域 的 数据 变换 。 
两 个 常见 的 独立 于 数据 的 变换 是 离散 傅立叶 变换 DFT) 和 离散 小 波 





数据 分 析 )， 
序 分 析 中 的 相似 搜索 大 有 用 武之 地 。 
到 频率 域 (frequency domain) 
网 氏 距离 作为 相似 计 
的 技术 需 
通常 ， 使 
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医 ; 


了 诊断 《如 心 








Ey 





算 的 依据 。 


TE 
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用 独立 


























数据 来 自 频率 域 。 因 
于 数据 的 变换 ， 


日 似 搜索 ? ”为 提高 访问 效率 ， 可 以 用 头 几 个 传 
当 相 似 查 询 提交 给 系统 ， 可 以 利用 索引 检索 出 与 查询 序列 保持 一 














外 数据 ， 相 











接近 的 数据 序列 。 子 序列 匹配 (subsequence matching) 
而 整体 序列 匹配 (whole sequence matching) 是 找 出 彼 山 
图 分 析 )， 和 科学 与 工程 数 


上 间 





此 ， 有 关 距 离 的 
变换 矩阵 是 预 























色 发 





通过 仅 保 持 DFT 的 头 几 个 〈 即 ,“ 最 强 的 > 系数 ， 





定 最 小 

















距离 的 序列 。 


(postprocessing)。 
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过 计算 时 间 域 序列 和 未 满足 查 





“ 子 序列 匹配 如 何 进行 ? ”对 子 序列 匹配 ， 每 





每 个 序列 里 


可 以 搜索 更 长 的 





影射 为 特 和 
线索 (subtrai)l”， 每 一 个 由 最 4 
人 





FE 空 间 的 ， 











,边界 
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E 形 表示 。 利 用 多 片 组 装 算法 


于 a 


的 月 


一 序列 首先 被 分 


> 





列 间 的 实际 距离 ， 





增强 相似 搜索 方法 ， 处 理 偏 移 和 振幅 中 的 间隙 (gap) 和 差异 (differences) 





大 部 分 实际 应 








用 并 不 一 定 要 求 

















匹配 的 子 序列 在 时 间 轴 











有 同样 的 形状 ， 





可 以 认为 它们 是 匹配 

“如 何 改 进 相 似 搜 索 ， 使 
型 ， 是 允许 用 户 或 专家 说 明 
匹配 片段 (matching fraction)， 等 等 
结果 序列 按 偏 移 转 移 和 振幅 
序列 与 男 一 个 子 序列 处 于 某 一 





似 模 
大 间 陀 ， 








量 在 序列 内 存在 间 隐 或 在 侦 移 或 志 
的 。 这 在 许多 相似 序列 分 析 


























调整 加 以 规范 处 到 
宽度 < 的 范围 内 


























两 个 子 
相似 子 序列 对 。 

基于 以 上 讨论 ， 
1; 
































这 列 是 相似 和 可 匹 


能 够 处 理 存在 间隙 和 
原子 匹配 (atomic matching): 








C。 两 序列 是 相 


遍 移 





找 





。 如 图 


以 的 ， 























可 以 进行 必要 的 后 处 理 


) 割 为 长 度 为 w 的 窗 
一 个 “线索 (trail)” 对 子 序列 分 析 ， 把 每 个 序列 的 线索 划分 为 “ 子 


(multipiece assembly algorithm) 


上 完全 一 人 臻 。 换 句 话 说 ， 若 子 序列 
展 幅 《offsets or amplitudes ) 
FP 尤 为 有 用 ， 如 股票 
能 够 在 存在 这 种 差异 的 情况 下 仍 能 判断 其 相似 性 
一 些 参 数 ， 如 滑动 窗口 (sliding window) 尺 寸 ， 相 似 范围 的 宽度 ， 
9.7， 给 出 了 两 个 时 间 序 列 ， 其 


场 的 分 析 和 心电图 分 析 。 





E， 使 得 振幅 


(其 中 e 
当 








民 





与 














昼 差 异 的 相似 搜索 的 执 
的 较 小 相同 窗口 对 。 














[2 片段 ”。 























对 具 
中 存在 差异 ， 我 们 也 








? ”一 种 改进 的 相 
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中 的 间 际 被 移 去 。 











和 偏 移 量 不 同 的 序列 得 以 匹配 。 当 一 个 子 











是 一 个 小 的 数字 ， 可 | 





月 






























































so 


们 上 少 


昌 户 或 专家 指定 )， 这 





它们 之 间 存 在 足够 多 的 非 重 闭 的 符合 时 间 次 序 的 


又 如 下 











2. 窗口 结合 (window stitching): 把 相同 窗口 结合 ， 形 成 大 的 相似 子 序列 对 ， 其 中 允许 在 原子 匹 
配 间 有 间 除 。 
3. 子 序列 排序 (subsequence ordering): 线性 排列 子 序列 匹配 ， 以 判定 是 否 存在 足够 大 的 相似 片 
段 。 
通过 以 上 的 处 理 步骤 ， 可 以 求 得 形状 相似 但 有 间隙 或 在 偏 移 或 振幅 中 有 差异 的 相似 序列 。 
P423 
(1) 原始 序列 (2) 移 去 间隙 
序列 S 序列 S 
序列 工 序列 工 
(3) 偏 移 迁移 (4) 振幅 放大 
序列 S 序列 S 





” 离散 傅立叶 变换 和 小 波 变 换 见 3。4。3 节 的 讨论 。 


序列 T 序列 TT 
(5) 子 序列 匹配 























图 9。7 在 时 序数 据 中 的 子 序列 匹配 : 原始 序列 形状 相同 ， 但 需要 调整 以 处 理 存 在 于 间 除 ， 偶 














移 ， 振 幅 中 差异 。 这 些 调整 允许 子 序列 在 一 定 宽度 e 的 范围 内 匹配 。 
相似 搜索 的 索引 方法 








“是 否 存 在 高 效 的 实现 方法 ? ”为 在 大 型 数据 库 中 改进 相似 搜索 的 效率 ， 人 们 提 
引 的 方法 。 例 如 ，R- 树 ，R*- 树 用 于 存储 最 小 边界 矩形 以 加 速 相 似 搜索 。 另 外 ， 















































在 高 维 点 上 提高 空间 相似 连接 的 速度 ， 还 提出 了 后 级 树 ( suffix tree) 等 。 
有 关 时 间 序 列 的 查询 语言 百 












































出 了 各 种 了 索 
是 出 了 ekdB 树 用 于 





“如 何 给 出 相似 搜索 的 请 求 ? ”设计 和 开发 功能 强大 的 查询 语言 ， 以 利 时 间 序 列 的 相似 查询 说 
明 ， 是 一 Be ed 祁 列 查询 语言 应 该 不 仅 能 够 描述 简单 的 相似 查询 ， 如 “ 找 出 与 给 定 

































































子 序列 Q 相似 的 所 有 序列 ” 而且 还 能 描述 复杂 的 查询 ， 如 “ 找 出 与 类 A: 












































某 序列 相似 ， 但 与 类 


了 


A 而 且 , 它 应 能 够 支持 各 种 类 型 的 查询 , 如 范围 查询 (range query )， 


所 有 对 查询 (all-pair query )， 和 最 邻近 查询 (nearest neighbor query) 等 。 


























男 一 种 有 意思 的 时 间 序 列 查 询 语言 是 形态 定义 语言 (shape definition language )。 




















人 类 可 读 的 序列 串 或 宏 的 形式 定义 或 查询 时 间 序 列 的 总 体形 状 ， 其 中 忽略 


























例 9. 10 模式 up,Up,UP 可 用 于 说 明 坡 度 上 升 的 程度 。 安 ， 员 spike 可 用 于 表 

















些 细节 。 








它 允 许 用 户 以 








示 一 个 序列 如 


(SteepUps( 上 陡 ),flat( 平 坦 ),SteepDown( 下 陡 )), 其 中 SteepUps 定义 为 C{Up,UP},{UPUP},{Up,UP} )， 
其 含义 是 一 个 SteepUps 由 三 个 陡峭 的 斜坡 组 成 , 每 一 个 或 对 应 Up, 或 UP。SteepDown 的 定义 类 似 。 









































类 似 的 形态 定义 语言 对 序列 相似 搜索 可 以 提高 用 户 在 说 明 形态 查询 方面 的 灵活 性 。 





9. 4. 3 序列 模式 挖掘 


















































“什么 是 序列 模式 挖掘? ”序列 模式 挖掘 〈sequence pattern mining) 是 指控 气相 对 时 间或 其 它 


模式 出 现 频率 高 的 模式 。 一 个 序列 模式 的 例子 是 “ 九 个 月 以 前 购买 奔腾 PC 的 客户 很 可 能 在 一 个 月 



































内 订购 新 的 CPU 芯片 ”。 由 于 很 多 商业 交易 ， 电 传记 录 ， 天 气 数据 ， 和 产品 处 











在 针对 目标 市 场 ， 客户 吸引 气象 预报 等 的 数据 分 析 中 ， 序 列 模式 挖掘 是 
序列 模式 挖掘 的 情形 和 参数 








y 
于 统计 时 序 分 析 中 的 趋势 分 析 和 预测 范畴 ， 见 9.1 节 讨 论 。 
对 序列 模式 挖掘， 存在 一 些 参数 ， 其 取 值 如 何 ， 将 严重 影响 挖掘 结 果 。 









































许多 有 关 序 列 模式 挖掘 的 研究 主要 针对 符号 横 式 〈symbolic pattern)， 因 








理 都 是 时 间 序 列 数据 ， 
很 有 用 途 的 。 








为 数字 曲线 模式 通常 属 














第 一 个 参数 是 时 | 





序列 


的 持续 时 间 (duration〉 T。 持 续 时 间 可 以 是 数据 库 中 的 整个 序列 ， 或 由 用 户 选择 的 一 个 子 序列 ， 如 
1999 年 。 序 列 模式 挖 据 因 此 是 限制 在 特定 的 持续 时 间 内 的 挖掘 。 持 续 时 间 还 可 定义 为 一 组 分 割 的 序 












































列 ， 如 每 年 ， 或 股票 大 跌 后 的 每 周 ， 或 火山 喷发 前 后 的 每 两 周 等 。 在 这 些 情形 中 ， 





式 (periodic pattern)。 





























第 二 个 参数 是 事件 重 半 窗口 (event folding window)，w。 在 指定 时 间 周 期 内 出 现 的 一 组 事件 ， 











可 以 发 现 周期 模 








可 以 视 为 某 一 分 析 中 一 起 出 现 的 事件 。 若 w 设 为 与 持续 时 间 了 相同 的 值 , 则 找 出 的 是 与 时 间 无 关 的 
模式 一 一 即 是 一 些 基本 的 相关 模式 ， 如 “在 1999， 购 买 PC 的 顾客 也 购买 数字 相机 ”( 这 里 不 反映 先 


























购买 那 一 个 )。 若 w 取 值 为 0( 即 ， 没 有 事件 序列 折 著 )， 则 找 出 的 序列 模式 
同 的 时 间 值 ， 如 “购买 了 PC 的 顾客 ， 可 能 接着 买 内 存世 片 ， 再 买 CD-ROM”。 着 w 设 为 之 | 












































的 每 个 事件 出 现在 不 
间 的 值 


《如 同一 月 内 发 生 的 交易 ， 或 24 小 时 滑动 窗口 内 )， 则 考虑 同一 周期 内 出 现 的 交易 ， 分 析 中 序列 被 





折 蕉 。 









































国 int=0: 表示 没有 时 间 间 隔 ， 即 ， 所 找 出 的 是 严格 连续 的 序列 ， 如 序列 模式 ailaiaitl， 





第 三 个 参数 是 被 发 现 的 模式 中 时 间 之 间 的 时 间 间 隔 (interval〉》int。 此 参数 可 取 如 下 的 值 : 





















































周 内 出 现 的 模式 。DNA 分 析 通 常 需要 发 现 没 有 间隔 的 连续 序列 。 


其 中 ai 
在 时 间 i 出 现 的 事件 。 事 件 折 县 窗口 w 同 此 情形 。 例 如 ， 如 事件 折合 窗口 设 为 一 周 ， 将 找 出 连续 几 














图 min_interval[int[max_interval: 表示 要 找 出 最 小 间隔 为 min_interval 而 最 大 间 陋 为 max_interval 
的 模式 。 例 如 ， 模 式 “ 如 果 某 人 租 了 影片 A， 很 可 能 30 天 内 租 景 影片 B” 比 涵 int<30( 天 )。 

图 int=czx0: 用 户 可 以 找 出 具有 确定 间隔 int 的 模式 。 例 如 ， 查 询 “ 每 当道 琼斯 下 降 超过 5%， 两 
天 后 会 发 生 什 么 事情 ?” 将 搜索 间隔 int=2〈 天 ) 的 序列 模式 。 

用 户 可 以 在 要 挖掘 的 序列 模式 上 指定 约束 ， 方 法 是 提供 “模式 模板 ”， 其 形式 可 以 是 系列 片段 
(serial episode)， 并 行 片 段 (parallel episode)， 或 正则 表达 式 。 系 列 片 段 是 一 组 在 总 序列 中 出 现 的 事 
件 ， 而 并 行 片段 是 一 组 与 出 现 次 序 无 关 紧 要 的 事件 。 设 记号 〈E,tO) 表示 发 生 在 时 间 t 的 事件 类 型 E。 
考虑 数据 (A，1),，(C，2),，(B，5)， 有 具有 宽度 为 2 的 事 重 折 车 窗口， 其 中 系列 片段 A->B 和 并 行 
片段 A&B 都 出 现 此 数据 中 。 用 户 还 可 以 正则 表达 式 说 明 约 束 ， 如 (CAIB) C* (DIE)， 它 表示 用 户 希 
望 查 出 这 样 的 模式 : 事件 A 和 B 先 出 现 〈 但 它们 二 者 的 出 现 次 序 无 关 紧 要 )， 之 后 是 一 个 或 一 组 事 
件 C， 再 之 后 是 事件 D 和 E (D、E 无 先后 )。 注 意 ， 其 它 事 件 可 以 出 现在 正则 表达 式 说 明 的 序列 中 。 


序列 模式 挖掘 的 方法 

关联 规则 挖掘 中 采用 的 Apriori 特性 可 以 用 于 序列 模式 的 挖掘 , 因为 若 长 度 为 k 的 序列 模式 是 非 
频繁 的 , 其 超 集 (长 度 为 k+l) 不 可 能 是 频繁 的 .因此 , 序列 模式 挖掘 的 大 部 分 方法 都 采用 了 类 Apriori 
算法 的 变种 ， 虽 然 所 考虑 的 参数 设置 和 约束 都 有 所 不 同 。 另 一 种 挖掘 此 类 模式 的 方法 是 基于 数据 库 
投影 的 序列 模式 生长 (database project based sequential pattern growth) 技 术 ， 类 似 无 候选 的 频繁 模式 挖 
掘 (frequent pattern) 方 法 ， 频 繁 模式 增长 法 (FP-growth)。 










































































































































































































































































9. 4. 4 周期 分 析 





“什么 是 周期 分 析 ? ”周期 分 析 (periodicity analysis) 是 指 对 周期 模式 的 挖掘 ， 即 在 时 序数 据 
库 中 找 出 重复 出 现 的 模式 。 周 期 模式 可 以 应 用 于 许多 重要 的 领域 。 例 如 季节 ， 潮 汐 ， 行 星 轨道 ， 每 
日 能 源 消耗 ， 每 日 交通 模式 ， 和 每 周 特定 时 间 的 所 有 TV 节目 。、 
如 前 一 节 所 指出 的 , 周期 模式 挖掘 可 视 为 以 一 组 分 片 序 列 为 持续 时 间 的 序列 模式 挖掘 ， 如 每 年 ， 
某 事件 出 现 前 后 的 每 一 位 置 等 等 。 
周期 模式 挖掘 的 问题 可 分 为 三 类 ; 
国 挖掘 全 周期 模式 〈full periodic pattern)， 这 里 每 一 时 间 点 都 影响 着 (精确 或 近似 ) 时 序 上 的 
循环 行为 。 如 一 年 中 的 每 一 天 都 对 一 年 中 的 季节 循环 起 着 作用 。 
国 挖掘 部 分 周期 模式 (partial periodic pattern)， 它 描述 在 部 分 时 间 点 的 时 序 周 期 。 例 如 ，Sandy 
在 平日 的 早晨 7: 00 至 7: 30 阅读 纽约 时 报 ， i 时 间 则 没有 什么 规律 。 部 分 周期 是 一 种 比 全 
周期 较为 松散 的 形式 ， 在 现实 世界 也 更 为 常见 
罩 挖 掘 1 or a ee rule)， 这 种 规则 是 周期 出 现 的 事件 的 
关联 规则 。 周 期 关联 规则 的 一 个 例子 是 “基于 每 天 的 营业 记录 ， 若 周末 下 午 杂 在 3: 00-5: 00pm， 
则 晚餐 最 佳 营 业 时 间 为 7: 00-9: 00。 
全 周期 分 析 的 技术 已 在 信号 分 析 和 统计 中 得 到 研究 。 如 FFT〔 快 速 傅 立 叶 变换 ) 方法 已 广泛 用 
于 时 间 域 到 频率 域 的 数据 转换 ， 以 便于 此 类 分 析 。 
“全 周期 模式 挖掘 方法 可 否 用 于 部 分 周期 模式 挖掘 ? ”高 效 的 部 分 周期 模式 挖掘 已 在 最 近 的 数 
据 挖 掘 中 研究 中 得 到 重视 。 全 周期 模式 挖掘 的 大 部 分 方法 相对 于 部 分 周期 模式 挖掘 或 者 不 适用 ， 或 
者 代价 太 大 ， 原 因 是 部 分 周期 模式 在 同一 周期 内 混杂 有 周期 事件 和 非 周 期 事件 。 例 如 ，FFT 不 能 
于 部 分 周期 挖掘 ,因为 它 把 时 序 看 作 不 可 分 离 的 数据 流 。 一 些 周期 探测 方法 不 能 覆盖 部 分 周期 模式 ， 
除非 部 分 模式 的 的 周期 ， 长 度 ， 和 选 时 (timing) 是 明确 说 明 的 。 以 新 闻 阅 读 为 例 ， 我 们 需要 明确 
说 明 诸如 “以 24 小 时 为 一 周期 ， 找 出 Sandy 在 7: 00 以 后 半 小 时 内 的 有 规律 的 活动 >” 把 此 类 方法 
简单 适用 于 部 分 周期 模式 的 挖掘 问题 是 不 足 取 的 ， 因 为 它 需要 处 理 的 是 周期 ， 长 度 ， 和 选 时 的 大 量 
组 合 。 
有 关 部 分 周期 模式 和 循环 关联 规则 挖掘 的 大 部 分 研究 都 应 用 了 Apriori 特性 启发 式 和 采用 了 变 
通 的 Apriori 挖掘 方法 。 在 序列 模式 和 周期 模式 挖 据 中 可 以 引入 约束 。 Apriori 特性 ， 各 种 改进 的 Apriori 
算法 ， 以 及 约束 挖掘 (mining constraint) 的 使 用 在 第 六 章 中 已 有 讨论 。、 



















































































































































































































































































































































































































































































































































































9. 5 文本 数据 库 挖掘 


前 面 对 数据 挖 
然而 在 现实 世界 中 ， 可 获取 的 大 部 分 信息 是 存储 在 文本 数据 库 〈 或 文档 数据 库 ) 中 的 。 











加 的 大 部 分 研究 


要 针对 的 是 




















组 成 。 








由 于 电子 格式 的 信 
可 以 被 视 为 一 个 巨大 的 ， 





息 量 的 
互 连 的 ， 








种 数据 源 《〈 如 新 闻 文 章 ， 研 究 论文 ， 书 籍 ， 数 字 


图 3 





飞速 增长 ， 如 电子 出 版 物 ， 
动态 的 数据 库 ) 


结构 数据 ， 妇 





上 关系 的 ， 





PB 馆 ， 人 





交易 性 ， 
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/局 

















和 
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文档 数据 库 中 存储 最 多 的 数据 是 所 谓 的 半 结 构 化 数据 (semistructure data )， 





构 的 也 不 是 完全 结构 的 。 
EE 包含 大 量 的 


类 ， 等 等 


也 可 


大 量 有 关 半 结构 化 数据 的 建 模 和 实现 方面 的 研究 。T 
处 理 非 F 擅 人 改 
检索 技术 





法 ， 已 经 被 用 来 
传统 的 信息 


[DA 
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很 少 
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部 分 与 与 其 











析 和 提取 有 用 信息 
找 出 多 文档 的 模式 或 趋势 因 





个 体 或 











例如 ， 























一 个 文档 可 能 包含 结构 字段 ， 如 标题 ， 
FE 结果 化 的 文本 成 分 ， 

















构 化 文档 。 


























] 户 相关 。 








此 ， 





9. 5. 1 文本 数据 分 析 和 信息 检索 





“什么 是 信 


系统 不 同 ， 信 息 检索 研究 的 主要 不 是 结构 数据 的 查 1 


典 弄 





而 不 清 




















已 不 适应 日 益 增 加 的 大 量 文本 数据 处 到 
4 楚 文 档 中 的 内 容 ， 就 很 难 
用户 需要 有 关 的 工 基 完成 不 同文 档 的 比较 ， 以 及 文档 重要 
文档 挖掘 就 成 为 数据 挖掘 中 
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\， 和 Web 页 面 ) 的 大 量 文档 
昌 子 邮件 ，CD-ROM， 和 万 维 
ee 


的 需要 。 典 型 的 ， 大 量 文档 ， 
形成 有 效 的 查询 ， 从 数据 中 分 


和 数据 仓库 数据 。 
它 由 来 自 各 


[一 
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J 


Ls 








网 〈 它 





它 既 不 是 完全 无 结 





作者 ， 出 版 日 期 ， 长 度 ， 分 
如 摘要 和 内 容 。 在 最 近 数 据 库 领域 
j 且 ， 信 息 检索 技术 ， 如 文本 标 引 (text index) 方 
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和 相关 性 排列 ， 或 





























个 日 益 流 行 





息 检 索 ? ”信息 检索 (IR) 是 与 数据 库 系 统 并 行 发 展 很 多 年 的 一 





而 重要 的 研究 课题 











个 领域 。 与 数据 库 
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县 检索 系统 
统 的 数据 库 系 统 





妃 组 织 和 检索 。 
县 检索 系 乡 
于 信息 检索 和 数据 库 系 统 处 
中 ， 如 3 
中 ， 如 9 








型 的 信息 检索 问 


于 用 户 的 输 


询 和 事务 处 至 
i 入 《如 关键 字 或 样 例 3 




















CC 的 问题 


而 是 下 


究 的 大 量 文本 文档 






































有 联机 图 





书馆 
































录 系 统 和 


处 理 的 是 不 同类 型 的 数据 ， 























发 控制 ， 恢 复 ， 














文本 检索 的 基本 评价 


“假设 








输出 的 结果 是 “ 准 胡 


出 的 一 
8 所 示 的 Venn 











国 查 准 率 〈precision): 它 是 所 检索 到 的 实际 与 查询 相关 的 文档 的 百分比 ( 即 ， 反 映 “ 正 确 


其 形式 定义 如 下 
P429 


国 查 全 率 (recal]): 


P429 


相关 文档 





“信息 检索 有 哪些 方法 2 大 部 分 信 ， 
(similarity based) 检 索 。 在 关键 字 检索 中 ， 文 档 被 看 作 字 符 串 ， 可 以 有 
达 式 ， 如 “汽车 and 修理 店 ”，“ 茶 or 有 屿 
此 类 查询 时 应 考虑 其 同义词 问题 (sy 
4 定 关键 字 car (汽车 )， 其 同义词 automobile 和 vehicle 同样 应 加 以 考虑 在 
: 一 个 关键 字 如 软件 产品 ， 可 能 3 
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but not Oracle” 等 


例如 ， 名 


检索 有 两 个 主要 的 


图 。 这 里 有 






























































事务 管 Se 和 更 新 。 
结构 化 文档 ， 











一 个 文本 检索 系统 按 一 定 查询 格式 的 输入 检索 出 了 














”或 “正确 ”的 ? ” 设 与 某 查 
组 文档 记 为 {Retrieved} 。 既 相关 又 被 检索 出 的 一 
两 个 判断 文本 检索 质量 





的 基本 度量 : 








它 是 与 查询 相关 的 ， 并 且 实 际 被 检索 


相关 并 被 检索 





所 有 文档 
图 9。8 相关 文档 集 和 被 检索 文档 之 间 的 关系 


基于 关键 字 和 基于 相似 的 检索 




















。 好 的 信息 检索 系 





关键 字 构 成 的 表 





统 在 处 型 














联机 文档 管理 
数据 库 中 的 一 些 常 
司 样 信 息 


一 组 文档 。 
记 为 {Relevant}， 由 
组 文档 记 为 {Relevant}"{Retrieved}， 如 图 9。 


询 相 关 的 一 








系统 。 











组 文档 


























检索 到 的 文档 














困难 问题 。 第 
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[me = 





现 ， 但 文档 确 











实 是 与 软件 产 
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j 关 的 。 


个 是 同义词 问题 
第 二 个 是 多 义 词 问 是 





文档 ) 定位 相关 的 文 


常见 问题 并 不 出 现在 信 
检索 中 的 一 些 问题 也 不 出 现在 传 
基于 关键 字 的 近似 搜索 ， 和 相关 表示 等 。 


那么 我 们 如 何 判断 该 系统 


系统 检索 

















性 ”)。 





的 文档 的 百分比 。 其 形式 定义 如 下 


息 检 索 系 统 都 支持 基于 关键 字 (keyword-based ) 和 /或 相似 














页 (polysemy problem): 








一 组 关键 字 加 以 识别 o 用 户 提 





I 啡 ”，“ 数 据 库 系统 
nonymy problemy)。 
内 。 基 于 关键 字 的 
不 在 文档 中 出 
同一 个 关键 字 ， 如 






































挖掘 ， 可 能 在 不 同 的 上 下 文中 有 不 同 的 含义 。 

相似 检索 是 指 基于 一 组 共同 的 关键 字 找 出 相似 的 文档 。 此 类 检索 的 输出 应 基于 相关 度 ， 其 相关 
度 的 计算 基于 与 关键 字 近 似 性 ， 关 键 字 的 出 现 频率 等 。 注 意 ， 在 很 多 情况 下 ， 是 很 难 给 出 一 组 关键 
字 之 间 的 精确 的 相关 度 计算 结果 ， 如 数据 挖掘 和 数据 分 析 两 词 之 间 的 距离 。 

“基于 关键 字 和 基于 相似 的 信息 检索 方法 的 工作 原理 如 何 ? ”文本 检索 系统 通常 用 到 称 为 无 用 
词 表 (stop list) 的 一 组 词 来 加 工 文档 。 无 用 词 表 被 认为 是 一 组 “无 关 的 ” 词 。 例 如 ，a, the, of , for with 
等 都 是 无 用 词 ， 虽 然 其 出 现 频率 都 很 高 。 文 档 不 同 ， 无 用 词 表 也 会 不 同 。 例 如 ， 数 据 库 系 统 可 能 在 
报纸 中 是 一 个 重要 的 关键 字 。 但 对 一 组 有 关 数 据 库 系 统 会 议 上 的 研究 论文 ， 可 能 被 视 为 无 用 词 。 

一 组 不 同 的 词 可 能 有 相同 的 词根 。 文 本 检索 系统 需要 识别 出 具有 相同 语法 构成 的 词 ， 收 集 每 组 
词 的 公共 词根 。 例 如 ，drug, drugged, drugs， 有 共同 的 词根 drug ， 这 一 组 词 可 视 为 是 同一 个 词 的 不 
同 变种 。 

“如 何 加 工 文档 使 其 方便 信息 检索 ? ”初始 有 一 组 文档 d 和 一 组 词 t， 我 们 可 以 把 每 一 个 文档 
视 为 是 一 个 在 d 维 空间 R' 上 的 一 个 向 量 v。v 的 第 j 个 坐标 是 一 个 数字 ， 反 映 的 是 第 j 个 词 与 所 给 文 
档 的 关联 度 : 当 文 档 不 含有 该 词 时 ， 其 值 设 为 0， 和 否则 设 为 一 个 非 零 值 。 有 很 多 方法 可 以 定义 向 量 
的 值 。 例 如 , 可 以 简单 定义 只 要 第 j 个 词 出 现在 文档 中 则 vi=l, 或 者 vij 设 为 词 频 值 (term frequency)， 
即 词 4 在 文档 中 出 现 的 次 数 ， 或 是 相对 词 频 Crelative term frequency) 值 ， 即 词 频 相 对 于 所 有 词 在 文 
档 中 出 现 的 总 次 数 。 

例 9. 1 词 频 矩阵 : 在 表 9。5 中 ， 每 一 行 表示 一 个 词 ， 每 一 列表 示 一 个 文档 向 量 ， 其 中 每 一 
项 ，frequency_matrix(ij)， 表 示 词 在 文档 dj 中 出 现 的 次 数 。 口 

“那么 如 何 确定 两 个 文档 是 相似 的 ? ”由 于 相似 文档 具有 相似 的 相对 词 频 ， 因 此 我 们 可 以 基于 
频率 表 中 的 相对 词 频 ， 计 算 一 组 文档 的 相似 性 ， 或 文档 与 查询 (一 般 为 一 组 关键 字 )〉 的 相似 性 。 
表 9。5 表示 每 一 文档 词 频 的 词 频 矩 阵 P431 

词 /文档 

















































































































































































































































































































































































































HT 








此 外 ， 还 有 很 多 计算 文档 相似 的 方法 。 
定义 。 设 vi 和 vs 为 两 个 文档 向量。 其 余弦 机 

P431 
其 中 内 积 viev2 为 标准 向 量 点 积 ， 定 义 为 P431， 分 母 中 的 |vi| 定 义 为 P431。 

“如 何 使 用 相似 和 矩阵? ”通过 使 用 文档 的 相似 和 矩阵, 我们 可 以 构造 出 文档 的 基于 相似 性 的 标 引 。 
基于 文本 的 查询 于 是 可 以 表示 为 向 量 ， 用 于 在 文档 中 搜索 接近 的 文档 。 然 而 对 仍 何 一 个 非 平 几 的 文 
档 数 据 库 ， 词 的 数目 T 和 文档 数目 DD 通常 很 大 。 如 此 的 高 维 数 会 导致 低 效 的 计算 ， 因 为 结果 频率 表 
大 小 为 TxD。 而 且 高 维 数 还 会 导致 非常 大 的 稀 玻 矩阵， 这 样 会 增加 寻找 词 之 间 关 系 的 难度 〈 如 同 义 
词 )。 为 克服 这 些 问题 ， 人 们 提出 了 潜在 语义 标 引 (latent semantic indexing ) 方法 ， 可 以 有 效 降低 分 
析 用 的 频率 表 的 大 小 。 


潜在 语义 标 引 
“潜在 语义 标 引 是 如 何 减 少 词 频率 矩阵 大 小 的 ? ”潜在 语义 标 引 方法 使 用 了 矩阵 理论 中 的 著名 
的 技术 奇异 值 分 解 〈singular value decomposition，SVD)。 给 定 工 个 词 和 了 D 个 文档 的 词 频 和 矩阵 TxD， 
SVD 方法 删除 一 些 行 和 列 ， 使 矩阵 减 小 为 KxK， 对 大 量 文档 ，K 一 般 取 值 为 几 百 〈 如 200)。 为 使 
信息 丢失 最 小 化 ， 只 忽略 频率 矩阵 中 意义 最 小 的 部 分 。 
通过 SVD 的 矩阵 变换 方法 是 相当 复杂 的 ， 这 超出 了 本 书 的 讨论 范围 。 但 是 ， 一 些 著名 的 SVD 
算法 从 一 些 软 件 包 可 免费 获得 ， 如 MALTAB ( www.mathworks.com ) 和 
LAPACK(www.netlib.org/lapack++). 
一 般 地 ， 潜 在 语义 标 引 方法 包括 如 下 的 基本 步骤 : 
1. 建立 一 个 词 频 矩 阵 ，frequent_matrix。 
2. 计算 frequent_matrix 的 奇异 值 分 解 ， 方 法 是 把 矩阵 分 裂 为 三 个 小 的 矩阵 U，S$，V， 其 中 TU 
和 V 是 正 交 抢 阵 〈 即 UU=I)，S 是 奇异 值 的 对 角 和 矩阵 。 和 矩阵 S 大 小 为 KxK， 是 原 频率 矩阵 
的 消减 矩阵 。 
3. 对 每 一 文档 d， 用 排除 了 SVD 中 消除 的 词 的 新 的 向 量 替 换 原 有 的 向 量 。 
4. 保存 所 有 向 量 集合 ， 用 高 级 多 维 索引 技术 为 其 创建 索引 。 
通过 奇异 值 分 解 和 多 维 索引 ,变换 后 的 文档 向 量 可 用 于 比较 两 文档 的 相似 性 或 找 出 查询 的 头 N 个 


有 代表 性 的 是 余弦 计算 法 (cosine measure)， 如 下 面 的 
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其 它 文 本 检索 标 引 技术 


file )。 


倒 排 索引 (inverted 











index) 是 一 


有 几 个 较为 流行 的 文本 检索 标 引 技术 ， 包 括 倒 排 索引 (inverted indexes ) 和 


document_table( 文 档 表 ) 和 term_table( 词 表 )， 其 中 


是 


候 


通过 这 种 组 织 ， 可 以 很 容易 地 回答 类 似 查 询 “ 找 出 与 给 
文档 相关 的 所 有 的 词 ” 例如 ， 要 找 出 
中 的 文档 标识 列表 ， 然 后 取 其 交集 ， 
满足 对 同义词 和 多 义 词 的 处 理 。 


Ee 
SE 











国 document_table 











出 现在 文档 中 的 词 (或 指 








国 term_table [ 








词 














记录 组 成 ， 每 个 记录 包含 














标识 的 列 寻 








是 包含 该 词 的 文档 








人 友 。 




















现 ， 但 不 外 











特征 文 但 











词 


太 大 ， 所 以 可 以 把 多 个 词 对 应 到 一 位 ， 以 减 
不 必 包 含 查询 的 关键 字 
首先 经 过 词 频 分 析 ， 词 根 处 


匹 


以 通过 一 些 方法 加 以 改进 ， 如 
技术 和 双重 编码 技术 将 词 表 编 码 为 位 串 表示 。 


的 





F(signature file) 是 
长 度 ， 用 于 表示 词汇 。 如 下 是 一 种 简单 的 编 
出 现在 文档 中 ， 则 该 位 置 为 1。 





: 理 








一 个 存储 数 


向 词 的 指针 ) 的 列表 


一 组 文档 记录 组 成 , 它 包含 两 可 字段 :doc_id 和 posting_list， 


村 征文 件 


种 索引 结构 ， 它 包含 两 个 哈 稀 索引 表 或 两 个 B+ 树 索引 





， 按 一 定 的 相关 度 排序 。 





posting_list 可 以 
据 库 中 每 一 文档 的 特征 记录 的 文件 。 


两 个 字段 : term_id 和 posting_list， 














档 ， 
































若 特 征 $ 











配 碍 询 特征 的 的 文档 ， 





























少 位 串 的 长 度 。 这 利 


码 模式 。 文 档 特 征 的 每 
与 S 的 特征 位 一 一 对 应 ， 则 Si 匹配 Ss。 
多 对 一 映射 会 增加 搜索 
分 析 ， 词 根 处 理 ， 和 检查 。 











。 文 档 要 经 过 查找 ， 























主要 缺点 。 




















但 是 ， 多 对 


9. 5. 2 文本 挖掘 : 基于 关键 字 的 关联 和 文档 分 类 
“什么 是 文本 数据 库 中 的 关联 挖掘? 可 否 生 成 文档 分 类 模式 ? ”以 下 小 节 将 讨论 这 些 问 题 。 









































































































































可 以 


一 位 初始 为 0。 























首先 找 出 每 个 词 在 














开销 和 





(signature 


人 : 





其 中 posting_list 
其 中 posting_list 


定 词 集 相关 的 所 有 文档 ”， 或 “ 找 出 与 指定 
与 一 组 词 相 关 的 所 有 文 
结果 是 一 组 相关 文档 。 实 际 中 倒 排 索引 被 广泛 地 使 用 。 它 易于 
E 常 地 长 ， 使 得 存储 


term_table 


民 大 。 
每 个 特征 有 固定 b 位 











若菜 一 位 对 应 的 




















于 词 的 数量 











开销 ? 





因为 
可 





E， 和 无 用 词 的 过 滤 ， 然 后 使 用 哈 稀 索引 
映射 的 问题 仍然 存在 ， 这 也 是 这 一 方法 

































































基于 关键 字 的 关联 分 析 

“什么 是 基于 关键 字 的 关联 分 析 ? ”此 类 分 析 首 先 收集 经 常 一 起 出 现 的 关键 字 或 词汇 ， 然 后 找 
出 其 关联 或 相互 关系 。 

与 文本 数据 库 中 大 多 数 分 析 一 样 ， ee td 词根 处 理 ， 去 除 无 用 词 
等 预 处 理 ， 然 后 调用 关联 挖掘 算法 。 在 文档 数据 库 中 ， 每 一 文档 被 视 为 一 个 交易 ， 文 档 中 的 关键 字 
组 可 视 为 交易 中 的 交易 项 。 即 数据 库 可 表示 为 

P433 
文档 数据 库 中 关键 字 关 联 挖掘 的 问题 就 变 成 交易 数据 库 中 交易 项 的 关联 挖掘 ， 这 在 第 六 章 中 已 有 过 
讨论 。 

注意 一 组 经 党 连续 出 现 或 紧密 相关 的 关键 字 可 形成 一 个 词 或 词组 。 关 联 挖掘 有 助 于 找 出 复合 关 























联 (compound associate )， 即 领域 相关 的 词 或 词组 ， 如 [Standford University] 或 [U.S., 总 统 ， 比 尔 ， 克 


林 
本 


俯 





No 


以 


然 


后 对 训练 集 进行 


顿 ]， 或 





分 析 中 有 两 个 优点 : 





FE 复合 关联 ， 如 [ 美 风 






































因此 ， 基 于 用 户 控 掘 的 需要 ， 可 以 使 用 关联 挖掘 或 最 大 模式 挖掘 算法 。 
文档 分 类 分 析 
自动 文档 分 类 是 一 种 重要 的 文本 挖 据 工 作 ， 由 于 现在 存在 大 量 





便于 对 文档 的 检索 和 分 析 ， 











， 参 股 〈shares)， 交 易 ， 
称 为 “ 词 级 (term level) 关联 挖掘 ”( 相 对 应 的 是 字 级 的 挖掘 )。 
(1) 词 和 词组 被 自动 标记 ， 无 须 人 去 标记 文档 ; 
无 意义 的 结果 将 极 大 减少 。 

利用 这 种 词 和 词组 的 识别 ， 词 级 挖掘 所 
给 定 关键 字 或 词组 中 找 出 关键 字 或 词 对 之 间 的 关联 ， ee 


总 额 ， 
词 





金 ， 证 














券 ]。 





基于 这 些 关 联 的 挖掘 








的 识别 和 词 级 关联 挖 
(2) 挖 志 









































字 间 


的 关联 。 





























是 至 


关 重 要 的 。 














“如 何 进 行 

















动 文档 分 类 ? ”一 般 的 做 法 如 下 : 
分 析 以 便 














得 出 分 类 








8 分 类 模式 。 这 种 分 类 模式 通常 需要 














的 联机 文档 ， 自 动 对 其 分 类 
首先 ， 把 一 组 预先 分 类 过 的 文档 作为 训练 集 。 























些 用 户 可 
8 希望 找 出 一 起 出 现 的 最 大 记 


时 在 文本 文 





时 算法 的 执行 时 间 和 


能 喜欢 从 


} 类 组 织 


7\ 





定 的 测试 过 程 ， 不 断 的 细 化 。 


之 后 就 用 这 些 导 








组 定义 为 一 组 属性 值 


出 的 





分 类 


模式 

















性 weather_outlook， 


个 人 是 否 要 


结构 。 与 一 组 文档 机 


























对 文档 分 














关键 字 和 词汇 











类 文档 ， 相 关 有 一 
对 新 的 文档 的 分 类 。 
Web 页 面 的 链接 信息 





9. 6 Web 挖掘 


万 维 网 目前 


1 十 
AN 


Sz. 




















以 及 Web 页 面 的 访 

















(terabytes ) 计算 ， 





是 一 个 
融 管理 ， 地 育 ， i 


效 方法 是 








使 用 已 





居 规 则 。 








此 中 基于 关联 的 文档 分 类 方法 已 经 证 
帮助 文档 类 的 识别 。Web 链接 分 析 的 方法 在 下 一 节 中 讨论 。 





DEL 


巨大 ， 




















问 和 











而 且 


“warm” 对 应 


使 用 信息 
有 效 的 资源 和 知识 发 现 还 是 具有 极 大 的 挑战 性 。 

四 对 有 效 的 数据 仓库 和 数据 控 
仍然 在 迅速 
上 。 这 使 得 几乎 不 可 能 去 构造 一 个 数据 仓库 来 复 和 








对 

















一 组 属性 


分 类 。 


基于 关联 的 分 类 ， 








六 




















经 有 的 词类 ， 











分 布 广泛 ， 全 球 性 的 信息 
电子 商务 ， 和 许多 其 他 信息 











或 维 刻 化 。 因 此 , 通常 面 对 关 系数 据 的 分 类 
它 基 于 一 


JUD， 
如 WordNet， 或 基于 专家 知识 ， 或 使 
训练 集中 的 文档 也 可 
它 可 以 最 大 化 地 区 分 一 
这 些 分 类 规则 可 以 基于 其 出 现 频率 和 识别 


它 联 机 文档 加 以 分 类 。 

这 一 处 理 过 程 与 关系 数据 的 分 类 相似 。 但 还 是 存在 本 质 的 
对 。 例 如 ， 元 组 {sunny, warm, dry, not_windy, play_tennis}， 值 “ 
属性 temperature， 
打 网 球 这 一 事情 上 ， 有 具有 最 大 影响 力 。 文 档 数据 库 贝 
日 关 的 关键 字 并 不 能 

如 决策 树 分 析 ， 并 不 使 用 对 文档 数据 库 的 
类 的 有 
以 分 类 。 基 于 关联 的 分 类 方法 处 理 过 程 如 下 : 
。 其 次 ， 
系统 ， 可 以 生成 关键 字 和 词 的 概念 层次 。 
挖掘 方法 可 以 用 于 一 组 发 现 关 联 词 ， 
组 关 





关系 数据 是 结构 化 的 : 每 个 元 
sunny” 对 应 属 
分 类 分 析 判 断 哪 一 个 属性 值 对 在 决定 一 
上 不 是 结构 化 的 ， 它 没有 属性 值 对 的 


方法 ， 





区 别 。 

















符 竺 
= 于 So 


















































组 关联 的 ， 经 常 出 现 的 文本 模式 对 文档 加 
单 的 信息 检索 技术 和 关联 分 析 技 术 提 出 
j 某 些 关键 字 分 类 
以 分 类 为 类 层次 结构 。 然 后 ， 词 关联 
类 文档 与 另 一 类 文档 。 这 导致 了 对 每 一 
能 力 ， 加 以 排序 ， 并 用 于 




















通过 人 简 征 

































































分 类 ， 可 以 利用 


刀 和 大， 





明 是 有 效 的 。 对 Web 文档 








\ 服 务 中 心 ， 
\ 服 务 。Web 还 包含 


它 涉 及 新 闻 ， ) 告 ， 消费 信息 ， 
了 丰富 和 动态 的 超 链接 信息 ， 




















， 这 为 数据 挖 


并 

















地 增长 。 











国 Web 页 面 的 复杂 性 远 比 任何 传统 的 文本 文档 复杂 





远 比 任何 一 组 书籍 或 
而 ， 这 一 图 书馆 中 的 大 量 文档 并 不 根据 作 
目次 等 的 索引 。 
国 Web 是 一 个 动态 极 强 的 信 








题 ， 作 者 ， 剧 页 ， 
更 新 。 新 闻 ， 上 股票 








tL 它 文本 




















问 记 录 也 在 频繁 





用 户 群 仍 在 不 断 





解 信 息 网 络 结构 ， 不 滩 
跃 式 ” 访 问 中 烦 乱 不 已 和 在 





上 的 信息 


| 
EH 


加 Web 
是 无 用 的 。 
Web 所 包含 





这 些 挑战 已 经 推动 了 如 何 








目前 有 许多 基 

















也 扩展 当中 。 





青 楚 搜 


索 


A 





文档 




















对 在 这 样 一 个 图 











昌 提 供 


轩 而 言 ，Web 似乎 太 庞大 了 。Web 的 数据 量 目 
许多 机 构 和 社 
|， 











了 丰富 的 资源 。 然 而 基于 以 下 的 分 析 ，Web 对 











前 以 兆 兆 字 节 
团 都 在 把 各 自 大 量 的 可 访问 信息 置 于 网 
存储 ， 或 集成 Web 上 的 所 有 数据 。™ 






























































多 得 多 的 风格 和 内 容 。 
E 何 有 关 排 列 次 序 加 以 组 


县 源 。Web 不 仅 以 极 快 的 速度 增长 
和 场 ， 公 司 广告 ， 和 Web 服务 中 心 都 在 不 断 地 更 
也 更 新 之 中 。 


国 Web 面 对 的 是 一 个 广泛 的 形形色色 的 用 户 群 体 。 目 前 


的 多 。Web 页 面 缺 乏 同 一 的 结构 ， 它 包含 了 
Web 可 以 看 作 一 个 巨大 的 数字 图 书馆 ， 然 
织 。 它 没有 分 类 索引 ， 更 没有 按 标 
书馆 中 搜索 希望 得 到 的 信息 是 极 具 挑战 性 的 。 

其 信息 还 在 不 断 地 发 生 着 


长 ， 而 且 
折 着 各 自 的 页 面 。 链 接 信 息 和 访 

























































































因特网 上 连接 有 约 五 千 万 台 工 作 站 ， 其 





























各 个 用 户 可 以 有 


的 高 昂 代 价 ， 


























3 
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口 右 
因 只 

















县 对 





[高效 








立 和 存储 大 量 的 基于 关键 字 的 索引 ， 
一 组 紧密 相关 的 关键 子 和 词组 ， 
的 搜索 引擎 存在 一 些 问题 。 























j 户 可 以 通过 提供 
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掘 一 








使 得 搜索 引擎 返回 的 文档 数 ; 
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民 小 
虽然 这 看 起 来 不 是 
的 其 余 信 








待 信息 中 失去 而 
的 一 部 分 是 


时 Ds 








不 同 的 
极 容易 在 “黑暗 ”的 网 络 中 迷失 方向 ， 也 极 容易 在 “ 跳 


相关 的 或 有 用 的 。 据 说 99% 的 Web 信 


ak 司 . 
月 汞 








， 兴 趣 ， 和 使 用 目的 。 大 部 分 用 户 并 不 了 




















息 相对 99% 的 用 户 




















民明 显 ， 但 一 个 人 呈 








是 有 效 地 发 现 和 利用 


\ 是 关心 Web 上 的 很 小 很 小 一 部 分 信 
用 户 来 说 是 不 感 兴趣 的 ， 而 


息 确 是 事实 ， 





且 会 淹没 所 希望 得 到 的 搜索 结果 








因特网 上 资源 的 研究 工作 。 





于 索引 的 Web 搜索 引擎 ， 它 可 以 完成 对 Web 





的 搜索 ， 对 Web 页 面 的 索引 ， 和 建 

















先 ， 对 任 一 范围 的 评 
于 庞大 ， 























30 最 近 ， 有 一 些 工作 在 
问 到 一 个 巨 








FE 致力 于 存储 








或 集成 Web 上 的 所 有 数据 
巨大 的 数 十 兆 兆 字 节 的 因特网 存档 。 








用 于 定位 包含 某 关 键 字 的 Web 页 面 。 利 用 搜 


索引 擎 ， 有 经 验 的 























6 题 ， 都 可 
其 中 很 多 与 话题 的 相关 性 并 不 大 , 或 所 包含 的 内 容 质 量 不 高 。 
其 次 ， 很 多 与 话题 相关 的 文档 可 能 并 不 包含 相应 的 关键 字 。 这 被 称 为 多 义 问题 ， 如 前 面 有 关 文 本 控 
节 中 所 讨论 的 。 例 如 ， 关 键 字 数据 挖掘 可 


全 已 人 _HHH 


HET 














快速 定位 到 所 需 的 文档 。 但 是 ， 目 前 基于 关键 字 


能 很 容易 地 包含 成 百 上 和 王 的 文档 。 这 会 























出 很 多 与 采 据 工业 有 关 的 Web 页 面 ， 而 可 能 

















。 例 如 ， 在 http:/www.archive.org/indexl.html 下 ， 可 访 


























找 还 存在 缺陷 。 


“如 果 Web 搜索 引擎 对 Web 资源 的 查找 都 还 不 够 充分 ， 何 以 谈 得 上 Web 挖掘 
课题 ， 它 实现 对 Web 存 取 模式 ，Web 乡 





尾 





一 个 更 具 挑战 
般 地 , Web 挖 志 
和 Web 使 月 
分 ， 这 样 Web 挖掘 




















Web 文档 自动 分 类 
4 节 )。 


举 个 例子 ， 对 关键 字 搜索 引擎 的 查找 ， 
在 线 ， 如 果 这 些 引 擎 不 在 其 页 面 上 


时 可 分 为 三 类 
有 记录 的 挖 拨 (Web usage mining) 
图 可 以 简 骨 
在 以 下 小 节 中 ， 我 们 将 讨论 
(9。6。2 节 ); 多 层次 Web 信息 





法 识别 有 关 知 识 发 现 ， 统 计 分 析 ， | 原 





内 是 它们 不 包含 














上 声 Sy 这 表明 目前 Web 搜索 引擎 对 Web 资源 





类 : Web 内 容 控 所 
























































库 的 建立 (9。6。3 节 ); 和 


9. 6. 1 挖掘 Web 链接 结构 ， 识 别 权 威 Web 页 面 


“什么 是 “权威 ”(authoritative) Web 页 面 ? ”假设 要 
的 页 面 。 这 时 我 们 希望 得 到 与 之 相关 的 Web 页 面 外 ， 
或 针对 该 话题 具有 权威 性 。 
是 搜索 引擎 如 
(Cauthority) 可 


投资 方面 














[44 但 
权威 性 
向 另 一 个 页 
一 个 
页 面 
威 Web 页 面 的 发 现 。 




















构 方 面 的 信息 ， 这 对 Web 挖 下 

一 思想 激发 了 一 些 有 趣 的 权威 Web 页 面 挖掘 的 研究 了 
究 论 文 质量 的 方法 。 然 而 ， 
首先 ， 不 是 每 一 个 超 链接 都 


出 了 使 用 杂志 论文 引 月 
构 具 有 特殊 的 特征 。 


























为 了 导航 或 为 了 付费 广告 。 总 体 ] 
的 考虑 ， 很 少 有 Web 页 面 会 指 
争 对 手 百 氏 的 Web 页 面 。 











基于 商业 或 竞争 上 
到 其 竞 
出 




















[2 


eb 搜索 3 


的 来 自 不 同 作者 的 注解 收 旨 








何 能 够 自动 找 出 记 




















6 题 的 权威 Web 页 面 ? ”这 日 





搜索 某 一 给 定 话题 的 











关键 字数 据 挖掘 


ho 








J 





能 找 不 出 最 常见 的 搜索 引擎 ， 如 Yahoo!, Alta Vista, 或 美国 





的 查 











轴 ? ”Web 挖掘 是 





结构 ， 和 规则 和 动态 的 Web 内 容 的 查找 。 一 
时 (Web content mining), Web 结构 挖掘 (Web structure mining)， 
。 另 外 ，Web 结构 也 可 以 被 认为 是 Web 内 容 控 
单 分 为 两 类 ， 即 Web 内 容 挖掘 和 Web 使 有 
与 Web 有 关 的 几 个 重要 问题 : Web 链接 结构 的 挖 





时 的 一 部 





日 记录 挖 气 。 





轴 (9。6。1 节 ); 
Weblog 挖掘 (9。6。 





Web 页 面 ， 例 如 金融 








还 希望 所 检索 到 的 页 面具 














右 证 
疝 页 星 





二 和 





























基于 了 


个 有 意思 的 发 现 ， 即 

















Web 页 面 链接 来 反 田 











而 的 超 链 接 。 超 链接 包含 了 大 量 人 类 潜在 的 语 
Web 页 面 的 作者 建立 指向 男 一 


个 页 面 的 指 钊 





类 。 0 而 且 还 


它 有 助 于 自动 分 





























FH 时 ， 这 可 0 面 的 注 和 角 


个 页 面 指 
语义 。 当 


府 。 把 一 个 


包含 了 从 一 
析出 权威 性 
































如 是 可 以 利用 的 一 





攻 起 来 ， 就 吕 以 
因此 ， 大 量 的 Web 链接 信 





小 


来 反映 该 的 页 面 的 重要 性 ， 
息 提 供 了 丰富 的 关于 Web 内 容 
个 重要 资源 。 





















































日 情 况 的 评估 下 











[ 作 。 在 七 十 年 代 ， 
与 杂志 的 引用 

















EF， 若 大 部 分 























有 注解 性 。 有 些 链 接 是 为 其 它 
} 超 链接 具有 注解 功能 ， 就 可 以 用 
向 其 竞争 领域 的 权威 页 面 。 例 如 






























































AAA 一 
符 一 
Hs 


和 述 信 ， 
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to 








之 类 的 自 扩 














获 29 
由 于 Web 链接 结 





hub 是 指 一 个 或 多 个 Web 页 面 ， 它 提供 
几 个 链接 指向 它们 。 但 是 ，hub 页 面 却 提供 
站 点 链接 。 此 类 页 面 可 以 是 主页 








或 着 说 可 能 没有 








WAR 


生 ， 人 





吉 构 存在 这 些 局 限 1 














上 的 


























商业 站 点 上 的 专业 闭 本 





权威 页 面 很 


荐 链接 列表 
站 点 。Hub 页 面 起 到 了 隐 
指向 许多 好 的 authority 的 页 面 ;好 的 authority 是 指 由 许多 好 








和 二: 
少 具 


了 特 














们 提出 了 另外 一 种 重要 的 Web 页 


并 可 以 很 自然 地 


别 的 描述 。 如 Yahool 











于 权 


相关 性 ， 质 量 ， 和 结 























言 息 检索 的 研究 者 提 
率 不 同 ，Web 链接 结 

目的 而 创建 的 ， 如 
于 权威 判断 。 其 次 ， 
， 可 口 可 乐 不 会 链接 
主页 面 不 会 明确 给 

















面 ， 称 为 hub。 








了 指向 权威 页 面 的 链接 集合 。Hub 页 面 本 身 可 能 3 





寺 个 八 半 


了 指向 就 某 个 公共 

















不 突 Te 
出 的 








话题 而 言 最 为 突 








， 例 如 一 门 课程 主页 上 的 
含 说 明 某 话题 权威 页 面 的 作 上 月 



































之 间 的 相互 作用 ， 可 月 

















日 于 权威 页 面 的 挖 # 




















页 面 构 成 了 根 集 (root 
含 指向 最 权威 页 面 














的 指 
的 页 所 指向 的 页 ， 以 及 所 有 于 


名词 得 到 一 初始 结果 集 
set)。 由 于 这 























六， 比如 ， 



































针 。 故 此 ， 根 集 可 进 








步 扩 展 为 基本 集 (base set)， 它 




















加 加 上 集 页 的 页 。 





















































可 以 为 基本 集 设 定 一 个 上 限 ， 如 











E 荐 参考 文献 站 点 ， 或 

日 。 

的 hub 所 指 癌 的 页 。 

时 和 高 质量 Web 结构 和 资源 的 自动 发 现 。 

“那么 ， 如 何 利 用 hub 页 去 找 出 权威 页 ?” ”算法 HITS (Hyperlink-Induced Topic Search)， 是 利 

用 hub 的 搜索 算法 ， 其 内 容 如 下 。 
首先 ，HITS 由 碍 ; 


导 


通常 ， 好 的 hub 是 
这 种 hub 与 authority 








1 基于 索引 的 搜索 引擎 得 到 200 个 页 面 。 这 些 
些 页 面 中 的 许多 页 面 是 假定 与 搜索 内 容 相 关 的 ， 因 











此 它们 中 应 包 
它 包 含 了 所 有 由 根 集 ， 
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1000 至 5000 (页 )， 








































































































FP 去 除 。 


用 于 指明 扩展 的 一 个 尺度 。 

其 次 ， 是 权重 传播 〈weight-propagation) 阶段 。 这 是 一 递归 过 程 ， 用 于 决定 hub 与 authority 权 
重 的 值 。 值 得 一 提 的 是 ， 由 于 具有 相同 Web 域 〈 即 在 URL 中 具有 相同 一 级 域名 ) 的 两 个 页 面 之 间 
的 链接 , 经 常 是 起 到 导航 的 功能 ， 因 此 对 authority 没有 贡献 ， 此 类 链接 可 以 从 权重 传播 分 析 9 

我 们 首先 可 以 为 基本 集中 的 每 一 页 面 赋予 一 个 非 负 的 authority 权重 ae 和 非 负 的 hub 权重 hp, 并 


将 所 有 的 a 和 jh 值 初始 为 同 








一 个 常数 。 权 重 被 规范 处 型 








上 ， 保 订 











上 \ 变 性 ， 如 所 有 权 习 








的 平方 和 为 1 。 


hub 与 authority 的 权重 可 按 如 下 公式 计算 : 


P438 
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了 


d 满足 


( gq 满足 


公式 〈9。7) 反映 了 若 一 个 页 面 | 

















很 多 好 的 hub 所 


(9.7) 


(9.8) 





指 ， 则 其 authority 权重 会 相应 增加 ( 即 ， 权 重 增 


加 为 所 有 指向 它 的 页 面 的 现 有 hub 权重 之 和 )。 公 式 “9。8) 反映 了 若 一 个 页 面 指向 许多 好 的 权威 
页 ， 起 hub 权重 也 会 相应 增加 《〈 即 ， 权 重 增加 为 该 页 面 链接 的 所 有 页 面 的 authority 权重 之 和 )。 
这 两 个 公式 可 以 按 如 下 的 矩阵 形式 重 写 。 









































矩阵。 其 








P439 
其 中 























P439 


根据 线性 代数 ， 当 规范 化 后 ， 两 迭代 序列 分 别 趋 于 特征 
hub 权重 是 彼此 链接 页 面 的 本 质 特征 ， 它 们 

最 后 ，HITS 算法 输出 一 组 具有 较 大 hub 权重 的 页 图 
实验 表明 ，HITS 对 许多 查询 具有 



























































j{1，2， 




















CT n} 表 示 页 面 ， 











AT 是 矩阵 A 的 转 置 。 对 两 公式 进行 k 次 迭代 ， 得 到 


向 量 AAI 和 AIA。 这 也 证 

















与 权重 的 初始 设置 无 关 。 
有 较 大 authority 权 习 
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-~ 
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>» 和 











非常 良好 的 搜索 结果 。 








虽然 基于 链接 的 算法 可 以 带 来 很 好 的 结果 ， 但 这 利 





例如 当 hub 页 包含 多 个 话题 的 
即将 公式 (9.7) 和 (9.8) 置换 为 相应 权 习 

















(Web 页 面 中 与 超 连接 相连 
小 的 单元 。 



































基于 HITS 算法 的 的 系统 包括 Clever。Google 也 基于 了 同样 的 原 














链接 和 文本 内 容 信 ， 








息 ， 查 询 效 


四 
个 








的 本 体 论 生成 的 结果 ， 如 Yahoo!。 


9. 6. 2 Web 文档 的 自动 分 类 








在 Web 文档 自动 分 类 











赋予 一 个 类 标签 。 例 如 ，Yahool 








， 基 于 一 组 预先 分 类 好 


这 一 模式 可 以 用 于 对 新 的 Web 文档 加 以 分 类 。 














基于 关键 字 的 文档 分 类 方法 和 





档 的 分 类 。 由 于 超 链接 包含 

















的 





~ 








基于 关键 字 的 分 类 方法 ， 来 的 更 准 
因此 一 味 使 用 超 链接 中 的 词 信息 ， 有 时 甚至 会 降低 查询 
法 ， 如 将 一 些 统计 方法 如 马尔 可 夫 随 才 
labeling) 方法 ， 就 是 一 种 尝试 ， 实 验 显 示 此 方法 可 以 极 大 地 改善 Web 文档 分 类 的 准 


了 有 关 
































儿 场 (Markov random field, MRF), 





9. 6. 3 多 层次 Web 信息 库 的 构造 











在 第 二 章 曾 指出 过 ， 基 于 关系 数据 库 可 以 构造 数据 仓库 ， 


台 已 三 
能 否 





“那么 





与 层次 化 视图 ? ”大 家 可 能 不 置 可 和 否 。 


[a 


是 否 是 可 行 和 有 益 的 。 








Et 


台 马 
只 能 导 


本 身 。 









































的 























方法 














于 忽略 文本 内 容 ， 也 过 3 


明 





的 页 面 。 许 





并 定义 邻接 矩阵 A 为 nxn 
若 页 面 i 链接 到 页 面 j， 则 A (ij) 设 为 1， 否 则 设 为 0。 同样 定义 authority 权重 向 量 
a=(al,a2,....,an)， 和 hub 权重 向 量 h=(h1,h2,.….,hn)。 这 样 ， 我 们 有 


了 authority 和 


多 














| 一 些 困难 


订 


























内 容 时 , HITS 有 时 会 发 生 偏差 。 
的 和 ， 降 低 同 一 站 点 内 多 链接 的 权 习 


的 文字 ) 调整 参与 authority 计算 的 链接 的 权重 , 将 大 的 hub 页 面 分 裂 为 











页 面 内 容 的 高 质量 信 
角 和 更 完美 。 然 而 ，1 





的 文档 ， 可 以 从 予定 义 好 分 类 
的 分 类 和 其 相关 文档 可 以 作为 训练 集 , 用 了 


这 






































问题 可 以 按 如 下 的 方法 加 以 克 
和 E， 使 用 anchor 文本 





服 ， 





里 。 这 些 系统 由 
明显 优 于 基于 词类 索引 引擎 产生 的 结果 ， 如 Alta Vista， 和 基于 人 工 


纳入 了 Web 
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‘人心 \» 


于 



































的 精确 














和 信守 
结合 宽 












































目录 
六 导出 Web 文档 分 类 模式 。 














为 每 一 文档 











I 关联 分 析 方 法 已 在 9。5。2 节 讨 论 过 。 这 些 方法 也 可 用 于 Web 文 
因此 很 好 利用 这 些 信 息 进 行 分 类 可 以 比 
围绕 一 个 文档 的 超 链接 可 能 
性 。 为 此 有 人 提出 了 一 些 
松 标 识 〈relaxation 


E 确 性 。 


三 | 
征 


46 





口 -99 
EE 
木 日 








] 于 提供 数据 的 多 维 与 层次 化 视图 。 








构造 多 层次 Web 信息 库 (multilayered Web information base)， 用 于 提供 


Web 的 多 维 








这 里 尝试 设计 一 种 多 层次 Web 信息 库 ， 大 家 可 以 分 析 一 下 它 





























用 于 基于 关键 子 或 多 维 

















述 

















上 
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首先 ， 建 立 一 种 Web 数据 仓库 ， 包 含 了 Web 中 的 每 一 页 面 的 复 本 ， 这 是 不 太 现 实 的 。 
致 一 个 巨大 ， 重 复 的 WWW。 这 表明 多 层次 Web 信息 库 的 最 底 ( 最 详细 ) 一 层 必须 是 Web 
它 不 可 能 成 为 单独 的 数据 仓库 。 我 们 把 这 一 层 称 为 layer-0。 
次 ， 我 们 可 以 把 layer-l 定义 为 Web 页 描 ; 
因此 ，layer-1 是 layer-0 的 掉 
的 搜索 或 挖掘 。 


民 (Web page descriptor layer)， 包 含 了 Web 上 
它 应 当 大 大 小 于 layer-0， 但 仍然 包含 足够 的 信息 ， 
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基于 Web 页 的 内 容 不 同 ，layer-1 可 以 组 织 为 若干 半 结 构 化 的 类 ， 如 document (文档 )，person 
(人 ), organization( 组 织 ), advertisement( 广 告 ), directory( 目 录 ), sale( 销 售 )， software( 软 件 ), game( 游 
戏 )，stocks( 股 票 )，library_catalog (图 书馆 目录 )，geographic_data( 地 理 数 据 )，scientific_data( 科 学 数 
据 )， 等 等 。 例 如 ， 我 们 可 以 将 类 document 如 下 : 
eP440 
其 中 每 一 项 Web 页 文档 的 一 个 抽象 。 第 一 个 属性 ，file_addr， 记 录 文 件 名 和 URL 网 络 地 址 。 属 性 
doc_category 和 authoritative_rank 包含 了 可 由 Web 链接 分 析 和 文档 分 类 方法 〈 见 前 两 节 的 讨论 ) 所 
得 到 的 一 些 重要 信息 。 许 多 属性 包含 了 与 文档 相关 的 主要 语义 信息 ， 如 (P441)。 其 它 属 性 反映 格 
式 信息 ， 如 form， 它 指明 文件 的 格式 (例如 ，.ps, .pdf, .tex, .doc, .html， 文 本 ， 压 缩 ，uuencoded， 
等 )。 还 有 儿 个 属性 直接 反映 与 文件 有 关 的 信息 ， 如 Size_doc《【〈 文 档 文件 的 大 小 ) 和 time_stamp 〈 最 
新 更 新 时 间 )。 属 性 access_frequency 表示 被 访问 的 频率 。 
第 三 ， 各 种 更 高 级 别 〈higher-layer) 的 Web 目录 服务 可 以 在 layer-l 之 上 加 以 构造 ， 用 于 提供 
针对 数据 库 系统 研究 的 黄页 服务 。 这 种 目录 可 以 包含 几 个 维 的 层次 结构 ， 如 主题 分 类 ， 地 理 位 置 ， 
发 表 时 间 等 等 。 
“我 们 需要 包括 每 一 个 Web 页 的 信息 吗 ? ”使 用 Web 页 的 等 级 〈ranking) 和 页 或 文档 分 类 服 
务 ， 我 们 可 以 在 构造 layer-1 和 /或 更 高 层次 信息 库 中 有 选择 地 保留 质量 高 ， 相 关 性 高 的 必要 信息 。 
随 着 结构 化 标记 语言 XML 越 来 越 流行 ， 被 人 们 接受 和 采纳 ， 可 以 预期 未 来 将 会 有 大 量 的 Web 
页 面 用 XML 书写 ， 并 遵循 一 组 好 的 DTD (Document Type Declarations， 文 档 类 型 说 明 )。 类 似 XML 
的 标准 化 语言 ， 可 以 有 利 促进 不 同 Web 站 点 间 的 信息 交换 ， 和 方便 构造 多 层次 Web 信息 库 的 信息 
提取 。 而 且 ， 更 便于 设计 和 实现 基于 Web 的 信息 搜索 和 知识 发 现 语言 。 
总 之 ， 基 于 以 上 讨论 ， 构 造 多 层次 Web 信息 库 应 该 是 可 能 的 ， 它 可 以 方便 因特网 上 的 资源 发 现 ， 
多 维 分 析 ， 和 数据 挖 据 。 可 以 预期 基于 Web 的 多 维 分 析 和 数据 挖掘 将 成 为 因特网 上 信息 服务 的 重要 
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9. 6. 4 Web 使 用 记录 的 挖掘 





“什么 是 Web 使 用 记录 的 挖掘 (Web usage mining) ? ”除了 Web 内 容 和 Web 链接 结构 ，Web 

挖掘 的 另 一 个 重要 任务 是 Web 使 用 记录 挖 据 ， 它 通过 挖 据 Web 日 志 记 录 ， 来 发 现 用 户 访 问 Web 页 
面 的 模式 。 通 过 分 析 和 探究 Web 日 志 记 录 中 的 规律 ， 可 以 识别 电子 商务 的 潜在 客户 ， 增 强 对 最 终 用 
户 的 因特网 信息 服务 的 质量 和 交付 ， 并 改进 Web 服务 器 系统 的 性 能 。 

Web 服务 器 通常 保存 了 对 Web 页 面 的 每 一 次 访问 的 《Web) 日 志 项 ， 或 叫 Weblog 项 。 它 包括 
了 所 请 求 的 URL， 发 出 请 求 的 卫 地 址 ， 和 时 间 惟 。 对 基于 Web 的 电子 商务 服务 器 ， 保 存 了 大 量 的 
Web 访问 日 志 记录 。 热 点 的 Web 站 点 每 天 可 以 记录 下 数 以 百 兆 的 Weblog 记录 。Weblog 数据 库 提 供 
了 有 关 Web 动态 的 丰富 信息 。 因 此 研究 复杂 的 Weblog 挖掘 技术 是 十 分 重要 的 。 

在 开发 Web 使 用 记录 挖掘 技术 中 ， 我 们 可 能 要 考虑 如 下 问题 。 首 先 ， 虽 然 Weblog 分 析 可 以 设 
想 出 许多 激动 人 心 的 潜在 应 用 ， 但 重要 的 一 点 是 此 类 应 用 的 成 功 要 依赖 于 从 这 一 巨大 原始 日 志 数据 
中 能 够 发 现 什 么 样 可 靠 和 有 效 的 知识 ， 有 能 发 现 多 少 。 通 常 ， 原 始 的 Weblog 数据 需要 经 过 清洗 ， 
精简 ， 和 转换 ， 以 便于 检索 和 分 析 有 意义 和 有 用 的 信息 。 原 则 上 ， 这 些 预 处 理 方法 与 第 3 章 中 讨 
的 类 似 ， 只 不 过 经 常 需 要 定制 的 预 处 理 方法 。 
其 次 ， 基 于 URL， 时 间 ，IP 地 址 ， 和 Web 页 面 内 容 信 息 ， 可 以 在 Weblog 数据 库 上 构造 多 维 视 
， 进 行 多 维 分 析 OLAP 分 析 ， 用 于 找 出 头 N 个 用 户 ， 头 N 被 访问 页 面 ， 最 频繁 访问 时 间 期 ， 等 
， 这 有 助 于 发 现 潜在 客户 ， 市 场 等 。 

第 三 ， 在 Weblog 记录 上 可 以 进行 数据 挖 据 ， 用 于 找 出 关联 模式 ， 序 列 模式 ， 和 Web 访问 趋势 
等 。 对 Web 访问 模式 挖掘 ， 通 常 需要 采用 进 一 不 的 手段 获得 用 户 访问 的 附加 信息 ， 以 便于 做 更 为 详 
细 的 Weblog 分 析 。 此 类 附加 信息 一 般 包 括 Web 服务 器 缓冲 中 ， 用 户 浏览 Web 页 面 的 序列 等 等 。 

通过 使 用 这 类 Weblog 文件 ， 可 以 进行 一 些 研 究 工 作 ， 如 系统 性 能 分 析 ， 通 过 Web 缓存 改进 系 
统 设 计 ，Web 页 面 预 取 ，Web 页 面 交 换 〈swapping); 认识 Web 信息 访问 的 本 质 ， 理解 用 户 的 反映 
和 动机 。 例 如 ， 有 些 研究 提出 了 可 适应 站 点 (adaptive site) 的 概念 : 即 可 以 通过 用 户 访问 模式 的 学 
习 改 进 其 自身 的 Web 站 点 。Weblog 分 析 还 有 助 于 建立 针对 个 体 的 个 性 化 Web 服务 。 

由 于 Weblog 数据 提供 了 什么 样 的 用 户 访问 什么 样 的 Web 页 面 的 信息 , 因此 Weblog 信息 可 以 与 
Web 内 容 和 Web 链接 结构 挖掘 集成 起 来 ， 用 于 Web 页 面 的 等 级 划分 ，Web 文档 的 分 类 ， 和 多 层次 
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Web 信息 库 的 构造 。 


9. 7 总 结 








。 大 量 数据 具有 各 种 各 样 的 复杂 形式 ， 如 结构 化 或 非 结 构 化 ， 超 文本 ， 和 多 媒体 等 。 因 此 复杂 数 
据 类 型 的 挖掘 ， 包括 对 象 数据 ， 空间 数据 ， 多 媒体 数据 ， 时 序数 据 ， 文 本 数据 ， 和 Web 数据 ， 已 经 
成 为 数据 挖掘 中 日 益 重 要 的 研究 内 容 。 

e。 在 对 象 -关系 和 面向 对 象 数据 库 中 ， 可 以 进行 多 维 分 析 和 数据 挖 据 ， 方 法 包括 〈1) 复杂 对 象 基 
于 类 的 概 化 ， 复 杂 对 象 包括 集合 值 ， 列 表 值 ， 和 其 它 复 杂 的 数据 类 型 ， 类 / 子 类 层次 ， 和 类 组 成 层次 ; 
(2) 构造 对 象 数据 立方 体 ， 和 “3) 进行 基于 概 化 的 挖掘 。 规 划 数 据 库 可 以 通过 基于 概 化 的 ， 分 而 
治之 的 方法 加 以 挖掘 ， 用 于 找 出 在 不 同 抽象 级 别 上 的 有 意义 的 一 般 模 式 。 

se 空间 数据 挖掘 是 指 从 大 数据 量 的 地 理 空 间 数据 库 中 发 现 有 意义 的 模式 .可 以 构造 出 包含 空间 维 
和 度量 的 空间 数据 立方 体 。 可 以 实现 空间 OLAP 用 于 多 维 空 人 x 间 数 
据 描 述 ， 分 类 ， 关 联 ， 聚 类 ， 和 空间 趋势 和 孤立 点 (outlier) 分 析 。 

。 多 媒体 数据 挖掘 是 指 从 多 媒体 数据 库 中 发 现 有 意义 的 模式 。 多 媒体 数据 库存 储 和 管理 大 量 多 媒 
体 对 和 象 ， 包 括 音 频数 据 ， 图 象 数 据 ， 视 频数 据 ， 序 列 数据 ， 和 包含 有 文本 、 2 链接 的 超 文 
本 数据 。 多 媒体 数据 挖掘 包括 基于 内 容 的 检索 和 相似 分 析 ， 概 化 和 多 维 分 析 ， 分 类 和 预测 分 析 ， 以 
及 多 媒体 数据 中 的 关联 挖掘 。 

e 时 序数 据 库 是 指 由 随时 间 变 化 的 值 或 事件 序列 组 成 的 数据 库 , 如 股票 市 场 数据 , 商业 交易 序列 ， 
动态 产品 处 理 ， 医 疗 ，Web 页 面 访 问 序列 ， 等 等 。 有 关 时 序 和 序列 数据 挖掘 的 研究 内 容 包括 趋势 分 
析 ， 在 时 序 分 析 中 的 相似 检索 ， 和 与 时 间 相关 数据 中 序列 模式 和 循环 模式 的 挖 所 。 

。 大 量 可 获得 信息 是 存储 在 文本 或 文档 数据 库 中 ， 它 包含 了 丰富 的 文档 内 容 ， 如 新 闻 文 章 ,技术 
论文 ， 书籍 ， 数 字 图 书馆 ， 电 子 邮件 信息 ， 和 Web 页 面 。 文 本 数据 挖掘 因此 日 益 成 为 重要 的 研究 方 
向 。 文 本 挖掘 超出 了 基于 关键 字 和 基于 相似 的 信息 检索 范畴 ， 它 是 利用 基于 关键 字 的 关联 和 文档 分 
类 之 类 的 方法 从 半 结 构 化 文本 数据 中 发 现 知识 
。e 万 维 网 作为 一 个 巨大 ， 广泛 分 布 的 全 球 信 | ere 
理 ， 教 育 ， 政 府 ， 电 子 商 务 ， 和 许多 其 它 服 务 。 它 还 包含 了 丰富 和 动态 的 超 链接 信息 ， 和 访问 及 使 
用 信息 ， 这 为 数据 挖掘 提供 了 丰富 的 资源 。 | 
式 的 挖掘 。 这 里 讲 到 了 用 于 识别 权威 页 面 的 Web 链接 结构 挖掘 ，Web 文档 的 自动 分 类 , 多 层次 Web 
信息 库 的 建立 ， 以 及 Weblog 挖掘 。 









































































































































































































































































































































































































































































































































习题 





9.1 异 构 数 据 库 系统 由 多 个 数据 库 系统 组 成 ， 这 些 数据 库 的 定义 是 相互 独立 的 ， 但 彼此 间 需 要 一 定 
的 信息 交换 ， 能 够 处 理 局 部 和 全 局 查询 。 试 述 在 这 种 系统 中 如 何 使 用 基于 概 化 的 方法 处 理 描 述 
性 挖掘 查询 。 

9.2 对 象 立方 体 可 以 通过 对 面向 对 象 数据 库 的 概 化 ， 抽 象 为 结构 化 数据 ， 用 于 多 维 分 析 。 试 述 如 何 
在 对 象 立方 体 中 处 理 集合 值 数据 。 

3 空间 关联 挖掘 可 以 至 少 按 如 下 两 种 方式 加 以 实现 : (1) 基于 挖掘 查询 的 要 求 ， 可 以 动态 计算 不 
同 空间 对 象 之 间 的 空间 关联 关系 ; (2) 预先 计算 出 空间 对 象 间 的 空间 距离 ， 使 得 关联 挖掘 可 以 

基于 这 些 预计 算 结果 求 得 。 试 述 〈1) 如 何 高 效 实现 上 述 方法 ; (2) 各 方法 的 适用 条 件 。 

9.4 假设 某 城市 的 交通 部 门 需要 规划 高 速 公 路 的 建设 ， 为 此 希望 基于 每 天 不 同时 刻 收集 到 的 交通 数 

据 进 行 有 关 高 速 公 路 交通 方面 的 数据 分 析 。 

(a) 设计 一 存储 高 速 公路 交通 信息 的 空间 数据 仓库 ， 可 以 方便 地 支持 人 们 按 高 速 公 路 ， 按 
某 天 的 某 一 时 间 ， 和 按 周末 查看 平时 和 高 峰 时 间 的 交通 流量 , 可 以 在 发 生 重大 交通 事故 时 ， 
查 到 出 事 地 点 。 

(b) 可 以 从 该 空间 数据 仓库 中 挖掘 什么 样 的 信息 用 于 支持 城市 规划 人 员 ? 

(c) 该 数据 仓库 既 包含 了 空间 数据 ， 也 包含 了 时 态 数据 。 设 计 一 种 挖掘 技术 ， 可 以 高 效 地 
从 该 空间 -时 态 数据 仓库 挖掘 有 意义 的 模式 。 

9.5 多 媒体 中 的 相似 检索 已 经 成 为 多 媒体 数据 检索 系统 开发 中 的 主要 内 容 。 然而 ， 许 多 多 媒体 数据 
挖掘 方法 只 是 基于 简单 的 多 媒体 特征 分 析 ， 如 颜色 ， 形 状 ， 描 述 ， 关 键 字 ， 等 等 。 































































































































































































































































































































































































































































































(a) 请 指出 将 数据 挖 气 与 基于 相似 的 检索 结合 ， 可 以 给 多 媒体 数据 挖 气 带 来 重要 的 进步 。 
可 以 任 一 数据 挖掘 技术 为 例 ， 如 多 维 分 析 ， 分 类 ， 关 联 ， 或 聚 类 ， 等 。 
(b) 请 概述 应 用 基于 相似 的 检索 方法 增强 多 媒体 数据 中 聚 类 质量 的 实现 技术 。 
9.6 假设 一 供电 站 保存 了 按时 间 ， 按 地 区 的 能 源 消 耗 量 ， 和 每 一 地 区 每 一 用 户 的 能 源 使 用 信息 。 讨 
论 在 这 一 时 序数 据 库 中 ， 如 何 解决 如 下 的 问题 : 
(a) 找 出 星期 五 某 一 给 定 地 区 的 相似 的 能 源 消 耗 曲 线 ; 
(b) 当 能 源 消耗 曲线 急剧 上 升 时 ，20 分 钟 内 会 发 生 什 么 情况 ? 
Cc) 如 何 找 出 可 以 区 分 稳定 能 源 消耗 地 区 与 不 稳定 能 源 消耗 地 区 的 最 突出 特征 ? 











9.7 假设 某 连 锁 餐 厅 想 挖掘 出 与 主要 体育 
棍 球 比赛 时 ， 肯 德 鸡 的 销量 会 在 比赛 
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给 出 一 种 找 出 这 种 模式 的 有 效 方法 。 
大 部 分 与 时 间 相 关 的 关 




























































































F 相 关 的 顾客 消费 行为 ， 如 “每 当 电 视 播 H 
小 时 上 升 20%”。 








法 裔 加 拿 大 





联 挖 掘 算法 都 使 用 了 类 Apriori 算法 来 挖掘 此 类 模式 。6。2。14 
节 中 介绍 的 基于 数据 库 投影 的 frequent pattern(FP) growth 方法 ， 对 挖掘 frequent itemset 是 







































































十 分 有 效 的 。 可 否 扩 展 FP-growth 方法 去 找 出 此 类 与 时 间 相关 的 模式 ? 
9.8 一 个 电子 邮件 数据 库 是 指 包 含 了 大 量 电子 邮件 (e-mail) 信息 的 数据 库 。 它 可 以 被 视 为 主要 包含 
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列 ， 进 行 比较 以 识别 两 类 基 
找 出 并 比较 每 一 类 中 频繁 出 

















因 





间 的 主要 差异 。 
现 的 模式 。 























通 篆 ， 





























为 是 导致 疾病 的 基因 因素 ; 











男 一 方面 ， 在 健 








XE 
疾病 的 因素 。 注 意 ， 虽 然 基 














到 的 方法 ， 对 基因 
交叉 起 着 


要 。 











关联 分 析 : 同时 出 现 的 基因 序列 的 识别 : 





办 分 析 需 要 相似 搜 
然 不 同 。 例 如 ， 数 据 变换 的 方法 如 伸缩 ， 
数据 而 言 是 无 效 的 ， 








索 ， 但 


日 这 


























因为 基因 





完 过 时 序数 据 挖掘 


做 法 可 以 是 首先 从 
在 带 病 样本 中 出 现 频 度 超出 健 局 
未 样本 中 出 现 频 度 超出 带 病 相 





[ 














似 搜索 和 比较 。 对 分 


别 来 自 带 病 和 健康 组 织 





基因 数据 集成 和 用 于 基 





因 























的 相似 搜索 方法 。 在 基因 分 
J 基 




















日 








里 所 需要 的 技术 与 时 序数 据 
规范 化 ， 和 窗口 缝合 等 ， 这 些 是 在 时 序数 据 分 析 中 经 常 


两 类 














基因 





检索 出 基因 序列 
样本 的 序列 ， 可 
F 本 的 序列 ， 可 以 认为 
了 的 方 








>» 
































全 









































然而 ， 大 部 分 疾病 不 是 
于 帮助 胡 


较 。 
方法 可 






































由 身 





定 在 目标 样本 中 同时 


引起 的 ， 





基因 
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tH 现 的 基 


数据 是 非 数字 的 ， 








bp 状 





内 部 的 不 同 利 





祥 音 间 的 





2 





重要 的 功能 角色 。 男 一 方面 ， 频 繁 序列 模 式 的 分 析 在 基因 

















前 ， 许 
而 是 | 

















序列 相似 与 非 相 似 分 析 中 非常 重 





多 
基 





究 关注 的 是 
因 组 合 起 来 共同 起 作用 的 结果 。 关 联 分 析 








因 种 类 。 








此 类 分 析 将 有 助 于 发 现 基 


个 基因 与 男 一 个 基 





因 








因 组 和 对 基 














导致 
的 发 














的 基 


腺 味 叭 (A), 胞 核 喀 啶 (C)， 
的 序列 或 链 ， 类 似 一 个 双 绞 旋 梯 。 
生 按 一 定 次 序 组 织 而 成 。 核 
共有 挑战 性 的 问题 是 从 
序列 模式 分 


同 的 
病 的 
此 数 


用 
进行 
始 的 
数 ] 

















析 
因 
然后 
以 认 
是 抗 
法 截 
用 
精确 












































人 
EE 





的 比 





办 间 


的 交叉 与 











联系 的 下 
路 径 分 析 (path analysis): 发 现在 疾病 不 同 阶段 的 致 因 基因 : 引起 一 种 疾病 的 基因 可 





多 。 














能 不 止 一 











个 , 不 过 不 同 基因 可 能 在 疾病 的 不 同 阶段 起 着 作用 。 如 果 能 找到 疾病 发 
发 针对 疾病 不 同 阶段 的 治疗 药物 ， 从 而 取得 更 为 有 效 的 治疗 效果 。 在 遗传 研究 











就 有 





可 能 











析 会 起 到 重要 的 作 














”可 视 化 工具 和 遗传 数据 分 析 : 基 


方 体 (cubiods )， 和 











链 的 形式 展现 。 





交互 。 可 视 化 因此 在 生物 医学 的 数 























展 的 不 同 阶段 遗传 因素 序列 ， 
中 路 径 分 


















































基因 的 复杂 结构 和 序列 模式 通常 可 以 由 各 种 可 视 化 工具 以 图 , 树 ， 
这 种 可 视 化 的 结构 和 模式 方便 了 模式 理解 ， 知 识 发 现 ， 和 数据 
据 挖掘 中 起 着 重要 的 作用 。 







































































10. 1. 2 针对 金融 数据 分 析 的 数据 挖掘 


大 部 分 银行 和 金融 机 构 都 提供 
用 服务 〈 如 交易 ， 抵 和 


信 






































， 和 汽车 





保险 服务 和 股票 投资 服务 。 
在 银行 和 金融 机 构 中 产生 的 金 


化 的 数据 分 析 和 数据 挖掘 。 
为 多 维 数据 分 析 和 数据 挖掘 设计 和 构造 数据 仓库 : 与 许多 其 





以 下 给 


据 构 造 其 数据 仓库 。 多 维 数据 分 析 





x ， 按 部门 ， 





以 及 按 其 











它 因 素 ， 查 








丰富 多 样 的 储蓄 服务 (如 支票 ， 存 款 ， 和 商业 及 个 人 用 户 交 易 )， 



































贷款 )， 和 投资 服务 〈 如 共有 基金 (mutual funds))。 有 些 还 提供 
融 数 据 通 常 相 对 比较 完整 ， 可 靠 ， 和 高 质量 ， 这 大 大 方便 了 系统 
出 几 种 典型 的 应 用 情况 。 

















它 应 用 类 似 ， 需 要 为 所 
于 分 析 这 些 数 据 的 一 般 特性 。 例 如 ， 人 们 可 色 
看 负债 和 收入 的 变化 情况 ， 同 时 希望 能 提供 

















行 和 金融 数 
E 希 望 按 月 ， 按 地 
最 大 ， 最 小 ， 总 和 ， 









































平均 ， 和 其 它 统计 信息 。 数 据 仓库 , 数据 立方 体 , 多 特征 (multifeature) 和 发 现 驱 动 (discovery-driven) 


数据 立方 体 ， 
挥 重要 作用 。 





贷款 偿还 预测 和 客户 信用 政策 分 析 : 
因素 会 对 贷 素 
特征 选择 和 属性 相关 性 


的 。 有 很 多 

















特征 和 比较 分 析 ， 和 孤立 


次 偿还 效 色 











立 点 分 析 (outlier analysis〉 等 都 会 在 金融 数据 分 析 和 挖 抉 中 发 


钦 傍 付 预测 和 客户 信用 政策 分 析 对 银行 业务 是 相当 重要 
E 和 客户 信用 等 级 计算 产生 不 同 程度 的 影响 。 数 据 挖 据 的 方法 ， 如 


不 
贷 才 






































， 有 助 





: 计 








的 因素 包括 贷款 〈load-to- er 率 ， 
收入 (payment-to-income ) 比率 ， 客户 收入 水 平 ， 受 教育 
， 可 以 发 现 ， 比 如 说 ， 








客户 偿还 的 历史 信息 
以 据 此 调整 贷 
其 基本 信息 显示 是 相对 低 风 险 的 申请 。 

对 目标 市 场 (targeted marketing) 客户 的 分 类 与 聚 类 : 分 类 与 聚 类 的 方法 可 
别 和 目标 市 场 分 析 。 例 如， 通过 多 维 聚 类 分 析 ， 
组 。 有 效 的 聚 类 和 协同 过 滤 (collaborative filtering) 方法 〈 即 ， 使 
类 ， 决 策 树 ， 等 等 有 助 于 识 

洗 黑钱 和 其 它 金 融 犯 罪 的 侦破 : 要 侦破 洗 黑钱 和 其 它 金融 犯罪 行为 ， 重 要 的 一 点 是 
上 县 〈 如 银行 交易 数据 库 ， 





银行 于 是 可 





据 库 的 信 
侦破 工作 有 关 的 。 











人 这 服 


次 发 放 政 

















于 识别 重要 因素 ， 史 除非 相关 因素 。 例 如 ， 与 贷款 偿还 风险 相关 
贷款 期 限 ， 负 债 率 《月 负债 总 额 与 月 收入 总 额 之 比 )， 偿 还 与 
水 平 ， 居 住地 区 ， 信 用 历史 ， 等 等 。 分 析 
偿还 收入 比 是 主导 因素 ， 而 受 教育 水 平和 负债 率 则 不 是 。 
以 便 将 贷款 发 放 给 那些 以 前 曾 被 拒绝 , 但 根据 关键 因素 分 析 ， 

































































策 ， 






































别 客 





然后 可 以 采用 多 








人 ， 发 生 大 量 现 4 





等 等 
二 于 于 o 


二 


























于 用 户 群 体 的 识 
k 有 相同 储蓄 和 贷款 偿还 行为 的 客户 分 为 一 
j 各 种 技术 滤 出 信息 ， 如 邻近 分 
的 客户 组 ， 以 及 推动 目标 市 场 。 

要 把 多 个 数 
联邦 或 州 的 犯罪 历史 数据 库 等 ) 集成 起 来 ， 上 只 要 这 些 数据 库 是 与 
种 数据 分 析 工 具 来 找 出 异常 模式 ， 如 在 某 段 时 间 内 ， 通 过 某 一 组 
] 的 工 其 包括 数据 可 视 化 工具 (用 图 形 的 方式 按 一 定时 间 一 定 人 
































可 以 将 


次 偿 ; 























户 组 ， 将 新 客户 关联 到 适合 

























































































信访 量 ， 








群 显示 交易 活动 )， 链接 分 析 工 
排 级 )， 





对 高 度 相关 属性 






































聚 类 分 析 ] 了 

















移 或 其 





它 行为 )， 序 











活动 关系 和 模式 ， 








有 助 于 调查 人 员 











10. 1. 3 零售 业 中 的 数据 挖掘 





零售 业 是 数据 挖掘 的 主 
货物 进出 ， 消 费 与 服务 记录 ， 等 等 。 其 数据 量 在 不 断 地 迅速 脱 胀 ， 特别 是 
上 的 商 





录 ， 
或 电子 商务 








要 应 用 


站 《〈 识 


列 模式 分 析 工 具 〔 分 析 异 常 访问 模式 的 特征 )。 这 些 工 


























别 不 同人 和 活动 之 间 的 联系 ), 分 类 工具 ( 滤 掉 不 相关 的 属性 ， 
(将 不 同 案例 分 组 )， 孤 立 点 分 析 工 具 〈 探 测 异常 资金 量 的 转 
可 以 识别 出 一 些 重要 的 














[县 


一 一 




































































聚焦 可 颖 线索， 做 进一步 的 处 理 。 








领域 ， 这 是 因为 零售 业 积 累 了 大 量 的 销售 数据 ， 顾 客 购买 历史 记 
于 日 益 增 长 的 Web， 





























方式 的 方便 ， 





机 购买 商品 。 


一 些 企 











数据 为 数据 挖掘 提供 了 丰富 的 资源 。 


业 ， 如 Amazon.com， 

















流行 。 今 天 ， 许 多 商店 都 有 自己 的 Web 站 点 ， 顾 客 可 以 方便 地 联 
只 有 联机 方式 ， 没 有 砖 瓦 构成 的 〈 物 理 的 ) 商场 。 零 售 


























零售 数据 挖掘 可 有 








助 于 识别 顾 














客 购买 行为 ， 发 现 顾客 购买 模式 和 趋势 ， 改 进 服 务 质 量 ， 取 得 更 


好 的 顾客 保持 力 和 满意 程度 ， 提 高 货品 销 


以 下 给 





























出 零售 业 中 的 








几 个 数据 挖掘 的 例子 。 


基于 数据 挖掘 的 数据 仓库 的 设计 与 构造 : 








口 口 品 运 输 > 


据 仓 库 的 主 





























挖掘 


应 进行 








哪些 预 处 理 。 





量 比率 , 设计 更 好 的 货品 运 





























哪些 维 











和 什么 级 别 ， 


销量 和 服务 )， 所 以 有 许多 方式 设计 数据 仓库 。 所 包含 的 细 布 级 别 可 以 
要 用 途 是 支持 数据 分 析 和 数据 挖掘 ， 预 先 的 一 些 数据 挖掘 例子 的 结 $ 果 可 作为 设计 和 开发 
数据 仓库 结构 的 参考 依据 。 这 涉及 要 决定 包括 





由 于 零售 数据 覆盖 面 广 〈 包 括 销售 ， 顾 客 ， 
E 富 多 样 。 由 于 数 








输 与 分 销 策略 ， 减 少 企业 成 本 。 


职员 ? 货 




















以 及 为 保证 高 质量 和 有 效 的 数据 


销售 ， 顾 客 ， 产 品 ， 时 间 ， 和 地 区 的 多 维 分 析 : 考虑 到 顾客 的 需求 ， 产 品 的 销售 ， 趋 势 和 时 尚 ， 








以 及 
析 和 可 


第 二 章 介 和 


用 品 


























的 质量 ， 价 格 ， 利 润 ， 和 服务 ， 零 售 业 需 
视 化 工具 是 十 分 重要 的 一 件 
的 多 特征 数据 立方 体 (multifeature data cube), 在 














因为 它 方便 

















了 带 有 复杂 条 


促销 活动 的 有 效 性 分 析 : 零售 业经 常 
以 达到 促销 产品 ， 吸 引 顾 客 的 目的 。 





析 可 满足 这 方面 分 析 的 要 求 ， 方 法 是 通过 比较 促销 
情况 。 此 外 ， 关 联 分 析 可 以 找 出 哪些 商品 可 能 随 降价 商品 





相 比 。 


顾客 保持 力 





顾客 








件 的 聚 集 上 的 分 析 。 























事情 ， 这 包括 提供 


通过 广告 ， 
认真 分 分 析 1 








优惠 券 ， 


























期 间 











2 
~ 


的 销售 


要 的 是 适时 的 信息 
根据 数据 分 析 的 需 要 构造 复杂 的 数据 立方 体 。 
数据 分 析 中 是 一 种 有 月 














因此 提供 











t 强 有 力 的 多 维 


























忠诚 分 析 : 














和 各 种 折扣 和 让 利 的 方式 搞 促销 活 
促销 活动 的 有 效 性 ， 有 助 于 提高 企 
量 和 交易 数 量 与 促销 活动 前 后 的 有 关 
一 同 购买 ， 特 别 是 与 促销 活动 前 后 的 销售 


分 








日 的 数据 














上 利润。 多 维 








通过 顾客 荣誉 卡 信息 ， 可 以 记录 下 一 个 顾客 的 由 





购买 序列 。 


结构 ， 





动 ， 
分 





























顾客 


] 岂 减 和 购买 起 辑 四 以 搜 林 统 的 万 式 加 以 分 析 。 由 同一 顾客 在 不 同时 期 购买 的 商品 可 以 分 组 为 序 








列 。 序 列 模 
留 住 老 客户 ， 

















式 挖 据 可 用 于 


吸引 新 顾客 。 








分 析 顾 客 的 消费 或 














购买 
能 购买 其 
让 二 人 
的 信息 











E 荐 和 商品 参照 : 


ry 


些 商品 。 
以 便 改进 服务 






































这 类 信息 可 用 于 形成 








10. 1. 4 电信 业 中 的 数据 挖掘 

















人 信 业 
呼 ， 移 动 电 


网 络 ， 因 特 网 ， 和 各 种 其 它 方式 的 通讯 和 计算 的 融合 
电信 市 场 正 二 








业 的 开放 和 
挖掘 技术 来 
非常 有 必要 
以 下 是 
电信 数 
叫 者 位 置 ， 





已 经 迅速 地 从 单纯 的 提供 地 话 和 长 六 














话 ， 儿 


象 ， 电 

















新 兴 计 算 与 通 











子 邮 件 





， 帮 助 顾客 选择 商品 ， 
或 有 吸引 力 的 买卖 也 可 以 相关 信息 一 同 发 布 ， 以 达到 促销 的 目 























定 的 购买 












































荐 。 
增加 销售 额 。 


购买 
同样 ， 





























的 。 














服务 演变 为 提供 综合 
， 计 算 机 和 Web 数据 传输 ， 以 及 其 它 数据 通讯 服务 。 
是 目前 的 大 势 所 趋 。 而 





忠诚 的 变化 ， 据 此 对 价格 和 商品 的 花样 加 以 调整 


通过 从 销售 记录 中 挖掘 关联 信息 ， 可 以 发 现 购买 某 一 品牌 
E 荐 可 在 Web， 每 周 传 单 ， 或 


， 以 便 











水 的 顾客 很 











诸如 “本 周 热点 商品 ” 


电信 服务 ， 如 语音 


之 类 

















， 传 真 ， 导 


可 - 


BE 信 ， 计 算 机 



































讯 技 术 的 发 展 ，1 




















帮助 理解 商业 
的 。 
1L 个 利用 数据 
据 的 多 维 分 析 : 


呼叫 类 型 等 。 























使 用 ， 
和 每 天 使 用 
和 可 视 化 工 




















盗用 模式 分 析 和 异常 模式 识别 : 盗 月 
典型 的 使 用 模式 ， 检 测 想 侵 入 用 户 账户 的 企图 ， 发 现 需 
要 的 。 这 些 模式 包括 : 老 是 占线 无 法 接 入 ， 转 换 和 路 1 
分 析 ， 聚 类 分 析 
关联 和 序列 模式 的 发 现 可 以 用 来 
系列 电信 服务 的 使 用 模式 《〈 按 用 户 组 ， 月 或 日 历 分 组 )， 按 客户 分 组 的 呼叫 


和 他 们 的 非 





传真 机 ) 发 


多 维 关联 和 序列 模式 分 析 : 多 维 
例如 : 假设 你 想 发 现 一 





记录 可 以 表 


为 了 决定 呼叫 是 否 在 两 个 特定 的 城市 


] 户 组 行为 ， 利 润 ， 等 等 。 


行为 、 硼 


























挖掘 改进 电信 服务 的 
































对 此 类 数 ] 











模式 等 方面 的 


MA 


有 具 进 行 多 维 分 




















出 的 周期 性 








呼 
































因此 ， 将 ! 


图 表 。 


析 。 











通过 多 维 
分 析 


叫 。 



































现 为 如 下 形式 ; 


(customer id, residense, office, time, date, service 1, service 2,... 














有 定 电 信和 模式 、 





























体例 子 。 





EB 信和 数据 本 身上 共有 多 维 性 
据 的 多 维 分 析 有 助 于 识别 和 比较 数据 通讯 情况 ， 系 统 负载 ， 资 源 
网 如 ， 分 析 人 员 希 望 经 常 查看 有 
电信 数据 构造 为 数据 仓库 十 分 有 用 ， 可 以 经 常 使 


行为 每 





> 如 























FE 迅速 扩 张 # 
捕捉 盗用 行为 、 更 好 地 利 月 














呼叫 时 间 ， 持 续 






































~ 

















洛杉矶 地 


个 地 区 之 间 的 长 途 服务 ， 然 后 在 接 下 来 的 时 间 











夹 时 间 ， 





且 随 着 
越发 竞争 激烈 。 


呼叫 者 位 置 


许多 国 

















家 对 电信 
因此 ， 利 用 数据 





资源 和 提高 服务 质量 是 











被 呼 














关 呼 叫 源 ， 呼 叫 目 标 ， 呼 叫 量 ， 
































FE 可 以 耗 掉 电信 业 数 百 万 美元 。 

















过 间或 特定 的 人 群 间 发 生 ， 这 村 











区 的 客户 在 和 他 居住 地 不 同 的 男 一 个 城市 工作 ， 它 

















EE 使 用 30 分 钊 


可 能 在 每 








骨 














1 OLAP 





定 潜在 的 盗用 者 





要 引起 汶 





FE 意 的 异常 模式 是 非常 重 
阻塞 ， 从 被 恶意 自 改 过 的 自动 拨 出 设备 《〈 如 
和 孤立 点 分 析 ， 可 以 发 现 许多 这 类 模式 。 
































Fh 的 蜂窝 昌 











电话， 








E 动 电信 服务 的 发 展 。 





的 一 个 序列 模式 ,“ 如 果 一 个 
个 工作 日 的 下 午 五 点 先 使 用 本 
可 以 通过 上 钼 和 下 钻 检 
































测 到 。 这 有 助 于 促进 特定 的 长 途 销 售 额 和 蜂 寅 电话 结合 ， 可 以 用 于 扩 
电信 数据 分 析 中 可 视 化 工具 的 使 用 : OLAP 可 视 化 ， 链 接 可 视 化 

点 可 视 化 等 工具 已 经 证 明 对 电信 数据 分 析 是 非常 有 用 的 。 

10. 2 数据 挖掘 系统 产品 和 研究 原型 


尽管 数据 挖掘 是 一 个 新 兴 的 领域 ， 有 很 多 问题 需要 深入 研究 ， 但 是 已 经 有 了 很 多 现成 的 数据 控 
























































展 某 个 地 区 的 特殊 服务 。 





， 关 联 可 视 化 ， 


























掘 系统 产品 和 特定 领域 的 数据 挖掘 应 


用 软件 。 作 为 一 个 新 兴 的 学 科 ， 




















聚 类 ， 和 和 孤立 


数据 挖掘 历史 相对 较 短 ， 正 在 























稳定 地 发 展 ， 每 年 市 场 上 都 会 出 现 新 的 数据 挖 据 系 统 。 基 础 相对 稳定 的 现 已 存在 的 系统 也 在 不 断 地 
刚刚 开始 。 因 此 ， 本 书 不 准备 








增加 新 功能 ， 新 特性 和 可 视 化 的 工具 。 























对 数据 挖掘 语言 的 标准 化 工作 



































对 商用 的 数据 挖掘 系统 做 详细 的 描述 ， 























而 是 给 出 一 些 在 选择 数据 挖掘 












































最 近 的 研究 成 果 在 参考 目录 中 给 出 。 











并 对 几 个 典型 的 数据 挖掘 系统 做 一 个 简单 介绍 。 有 关 参 考 文 章 ，Web 站 点 和 





10. 2. 1 怎样 选择 一 个 数据 挖掘 系统 











市 场 上 有 很 多 数据 挖 气 系 统 产 品 





这 样 的 印象 ， 数据 挖掘 系统 象 许多 商用 关系 数据 库 系 统一 样 ， 


询 语 言 ， 在 一 些 通 用 功能 上 的 表现 也 # 





的 硬件 平台 、 兼 容 性 、 鲁 棒 性 、 可 伸缩 性 、 价 格 和 服务 。 不 吉 的 是 事 
系统 在 数据 挖掘 的 功能 和 方法 上 很 少 有 相似 性 ， 有 时 甚至 在 完全 不 同 的 数据 集 上 进行 工 
要 选择 一 种 适合 当前 任务 的 数据 挖 据 系 统 ， 重 要 的 是 要 从 多 维 角度 来 看 





























， 大 家 可 能 会 问 :“ 我 该 选择 哪 一 种 系统 呢 ? ”一 些 人 可 能 有 


























系统 时 用 户 需 要 考虑 的 特性 ， 

















< 享 相同 的 定义 好 的 操作 和 标准 的 碍 
民 类 似 。 如 果真 是 这 样 的 话 ， 系 统 产 品 的 选择 主要 取决 于 系统 









































评价 一 个 数据 挖掘 系统 应 该 包括 如 下 几 个 方面 : 





数据 类 型 ;市场 上 的 大 多 数 数 据 挖 气 系 统 能 可 处 
数据 或 者 是 带 有 数字 、 分 类 和 符号 属性 的 类 似 于 关系 的 数据 。 数 据 用 



































1 有 关 数 据 挖掘 系统 方面 

















实 并 不 是 这 样 。 许 多 数据 挖 所 
作 。 
它 。 一 般 来 说 ， 























里 如 下 的 数据 ， 即 : 有 一 定格 式 的 基于 记录 的 
E 式 可 以 是 ASCII 文本 的 ， 也 可 


以 是 关系 数据 库 的 数据 或 数据 仓库 数据 。 考 察 一 下 系统 能 处 理 哪 种 格式 的 数据 是 非常 重要 的 ， 因 为 














一 些 数据 或 应 用 可 能 需要 特定 的 算法 来 查找 模式 ， 而 现 有 的 或 通用 的 数据 挖掘 系统 有 可 能 不 能 满足 
需求 ， 相 反 一 些 特殊 的 数据 挖 据 系 统 有 可 能 能 派 上 用 场 ， 这 些 特殊 的 









































系统 或 者 挖掘 文本 文档 、 地 理 











数据 、 多 媒体 数据 、 时 间 序列 数据 、DNA 序列 、Weblog 记录 及 其 它 的 Web 数据 ， 或 者 用 于 特定 的 











应 用 《〈 如 金融 、 零 售 业 、 电 信 半 等 )。 










































































而 且 ， 许 多 数据 挖掘 公司 提供 定制 的 数据 挖掘 解决 方案 ， 将 
一 些 本 质 的 数据 挖掘 功 能 和 方法 结合 起 来 。 


系统 问题 : 一 个 数据 挖 据 系 统 有 可 能 只 在 一 个 系统 上 运行 ， 也 可 能 同时 在 多 个 系统 上 运行 ， 支 
持 数 据 挖 掘 系统 的 最 流行 操作 系统 是 UNIX 和 Microsoft Windows (包括 95、98、2000 和 NT)。 也 












































有 一 些 数 据 挖掘 系统 运行 在 OS/2、Macintosh 和 Linux 上 。 大 的 面向 工业 的 数据 挖 





归 系 统 理 想 地 应 


该 支持 Client/Server 结构 ，Client 一 般 是 个 人 机 ， 运 行 Microsoft Windows，Server 是 一 系列 强大 的 

















许 输入 和 输出 XML 数据 。 

































































挖掘 等 。 对 于 一 个 给 定 的 数据 挖掘 功能 如 分 类 ， 一 些 系 统 可 能 只 文 持 
方法 《例如 决策 树 ， 贝 叶 斯 网 ， 神 经 网 ， 遗 传 算法 ， 基 于 案例 的 推 
同时 每 一 种 功能 又 支持 多 种 方法 的 数据 挖掘 系统 ， 能 提供 给 用 户 很 大 





























许多 问题 要 求 用 户 尝试 不 同 的 数据 挖 










































































一 些 数据 挖掘 系统 只 提供 一 种 





F 系 统 不 仅 能 够 访问 1 











述 ， 发现 驱动 














开行 计算 机 ， 运 行 在 UNIX 上 。 让 数据 挖掘 系统 提供 基于 Web 的 接口 是 最 近 的 趋势 ， 这 样 的 接口 允 











数据 源 : 这 是 指数 据 挖掘 系统 操作 的 特定 的 数据 格式 。 一 些 系 统 只 能 操作 ASCII 文本 ， 另 外 一 
些 可 以 操作 关系 数据 ， 访 问 多 个 关系 数据 源 。 一 个 数据 挖掘 系统 支持 ODBC 连结 和 OLEDB 是 非常 
重要 的 ， 这 保证 了 它 能 与 数据 库 进行 开放 连结 ， 也 就 是 
Microsoft SQL Server, Microsoft Access，IMicrosofr Execl，Oracle，Sybase 等 ) 的 能 力 。 和 数据 仓库 
一 块 工作 的 数据 挖掘 系统 必须 遵循 OLAP 标准 的 OLEDB 规范 ， 这 样 才能 保 说 
Microsoft SQL Server 7.0 提供 的 数据 仓库 ,也 能 访问 支持 这 个 标准 的 其 它 数据 仓库 产品 . 

数据 挖掘 的 功能 和 方法 : 数据 挖掘 功能 是 数据 挖掘 系统 的 核心 ， 
数据 挖掘 功能 ,例如 分 类 。 而 有 些 数据 挖掘 系统 能 够 支持 多 种 数据 挖掘 功能 ， 例 如 : 
的 OLAP 分析， 关联， 分类， 预测， 聚 类 ， 孤 立 点 分 析 ， 相 似 性 查找 ， 序 列 模式 分 析 ， 可 视 化 数据 


有 访问 关系 数据 (包括 DB2，Informix， 









































一 种 方法 ， 有 些 可 能 支持 多 种 





























EE 等 )。 文 持 多 利 






































时 功能 或 者 把 几 种 功能 集成 起 来 
























































数据 挖掘 功能 
的 灵活 性 和 很 强 的 分 析 能 力 ， 
使 用 ， 不 同 的 数据 集 使 用 不 同 
的 方法 ， 非 常 有 效 。 当 然 ， 由 于 系统 更 加 灵活 ， 用 户 可 能 需要 进行 培训 或 者 得 有 经 验 ， 








因此 这 些 系 





统 应 该 给 初级 用 户 提供 方便 ， 使 








的 设置 

















统 结合 起 来 ， 以 各 种 组 件 形式 无 缝 地 集成 到 一 个 信息 处 
的 ， 松 契合 的 ， 半 松 厢 合 的 ， 和 紧 厢 合 。 一 
库 或 数据 仓库 系统 结合 ， 这 样 的 系统 在 使 用 大 的 数据 集 或 者 存 
难 。 在 和 数据 库 或 数据 仓库 松散 结合 的 数据 挖 所 
区 或 主 内 存 ， 然 后 利用 数据 挖掘 功能 进行 分 析 ， 这 样 的 系统 1 
时 候 不 是 很 有 效 。 和 数据 库 或 数据 仓库 



























































能 访问 最 通 


数据 挖 气 系 统 和 数据 库 或 数据 仓库 系统 的 

















的 功能 和 方法 ， 或 将 最 通 


狂人 和合， 


肌 瑟 : 





个 数据 挖掘 系统 应 

















上 5 








二 





里 环境 中 。 其 结合 
只 





操作 ASCII 文本 数据 文件 




















轩 系 统 中 ， 数 据 首 
申 缩 性 不 好 ， 

















人 





疆 














松散 


的 数据 挖掘 系统 


了 口 口 





嵌 在 关系 数据 库 中 的 数据 时 会 有 
先 被 数据 库 或 数据 仓库 返回 到 缓冲 











的 功能 和 方法 作为 缺 省 











该 和 数据 库 或 数据 仓库 系 
方式 有 四 种 形式 : 无 看 合 
的 数据 挖掘 系统 不 和 数据 


会 有 困 



































执行 茶 些 数据 挖掘 查询 的 





只 对 少数 几 个 数据 挖掘 原 操 作 


《例如 排序 ， 索 引 ， 聚 集 ， 直 方 图 分 机 ， 多 路 联接 ， 一 些 统计 值 的 预计 算 等 ) 提供 了 有 效 的 实现 。 








最 理想 的 是 ， 数 据 挖 气 系 统 应 该 和 数据 库 或 数据 仓库 在 以 下 意义 上 进行 紧 
用 掘 查 询 优化 成 循环 的 数据 挖掘 和 获取 过 程 ， 将 二 者 结合 起 来 。 数 据 控 


紧密 结合 也 是 非常 必要 的 ， 这 样 数 据 挖掘 和 OLAP 操作 前 
































可 伸缩 性 : 数据 挖掘 有 

















两 种 可 伸缩 性 问题 








数据 挖掘 系统 行 数 扩大 了 10 倍 ， 而 执行 同村 














的 话 ， 则 说 这 个 系统 是 行 可 人 
(属性 或 维 ) 可 伸缩 的 ， 











系统 是 列 
伸缩 的 更 具有 挑战 性 。 





























缩 的 ; 























于 多 维 性 





















































: 行 〈《 数 据 库 大 小 ) 伸缩 和 








的 数据 挖掘 查询 的 时 间 最 多 也 不 超过 其 原来 时 间 10 倍 
如 果 数 据 挖掘 查询 执行 时 间 和 列 数 旺 











轴 和 基于 OLAP 的 数据 仓库 
能 够 集成 起 来 提供 OLAP 挖掘 功能 。 


密 结 合 ， 即 : 通过 把 数据 























列 〈 维 ) 伸缩 。 如 果 一 个 





线性 增长 关系 ， 则 说 这 个 





的 原因 ， 使 一 个 系统 成 为 列 








可 视 化 工具 :“ 一 幅 医 














胜 








» 
TY 
< 














讨论 。 可 视 化 工具 的 种 类 ， 








和 干 句 话 ” 在 数据 挖掘 9 
据 可 视 化 ， 挖 抉 结 果 可 视 化 ， 挖 据 过 程 可 视 化 ， 和 可 视 化 数据 挖 扩 








届 。10.3. 











质量 和 灵活 性 严重 地 影 
数据 挖掘 查询 语言 和 图 形 用 户 接口 : 数据 挖掘 





























户 接口 ， 对 








户 挖 抉 界面。 在 关系 数据 库 系统 





























民 的 数据 挖掘 查询 语言 ， 














于 人 缺少 标准 的 数据 挖掘 语言 ， 要 使 数据 挖掘 产品 标准 化 和 使 不 同 的 数据 














鸡 











挖掘 系统 之 间 进 行 互 操作 是 
故 的 工作 。Microsofts OLE DB for DM 就 是 这 样 的 一 种 语言 ， 我 们 将 妊 


很 








10. 2. 2 商用 数据 挖掘 系统 的 例子 





前 面 提 到 ，! 
述 任何 一 个 特殊 的 商用 数 


























于 数据 挖 





E 的 。 在 第 4 章 介绍 了 在 定义 和 标准 化 数据 挖掘 查询 语言 方面 最 近 所 


E 附 录 A 中 进行 描述 。 


加 市 场 还 处 于 起 步 阶段 ， 而 且 
据 挖 气 系 统 ， 为 了 帮助 读者 对 目 


响 了 数据 挖 气 系 统 的 使 
是 一 个 探测 的 过 程 。 














于 促进 用 户 指 导 ， 进 行 高 交互 的 数据 挖掘 非常 重要 ， 许 多 数据 
， 许 多 图 形 用 户 接口 是 在 SQL〔 它 作为 
于 数据 的 查询 语言 》 的 基础 上 搭建 的 ， 但 是 ， 大 多 数 数据 挖 抉 系统 和 





上 它 不 




















是 非常 真实 的 。 数 据 挖 























可 伸缩 的 比 让 其 成 为 行 可 





加 的 可 视 化 分 为 数 

1 节 将 会 对 其 进行 详细 的 

用 ， 解 释 和 吸引 力 。 

个 易 使 用 高 质量 的 图 形 用 
挖掘 系统 提供 了 友好 的 用 
个 标准 ， 其 有 良好 的 基 

一 样 ， 它 们 不 共享 任何 底 



























































-> 


























发 展 很 快 ， 在 本 
前 的 数据 挖掘 产 






































致 的 了 解 ， 我 们 仅 对 几 个 : 
许多 数据 挖掘 系统 只 
一 个 方法 ， 如 











型 的 数据 挖掘 产 
只 提供 某 一 特殊 的 数据 挖掘 功能 ， 例 如 分 类 ， 或 只 提供 一 个 数据 挖掘 


决策 树 分 类 法 。 有 些 数 据 挖 气 系 统 能 提供 多 个 数据 挖掘 功能 。 











了 多 种 数据 挖掘 功能 和 








各 利 
© Intelligent Miner 这 














分 类 ， 


神经 网 络 算法 





回归 ， 预 测 模型 
， 统 计 方 法 ， 


了 多 种 知识 挖掘 技术 
这 是 IBM 公司 的 数据 挖掘 产品 ， 它 提供 
， 俩 离 检测 ， 序 列 模 式 分析 和 聚 类 。 
数据 准备 模型 和 数据 可 视 化 工具 。 





























一 是 它 的 数据 挖掘 算法 可 人 


Enterprise Miner 


计 分 析 包 。 它 的 特色 是 
































和 历史 。 
MineSet 
关联 和 分 类 


BR ez 

















据 结 果 的 可 视 化 ] 
Clementine 是 | 


力 能 。 





























化 工具 。 特 色 是 它 具 有 面向 对 象 的 扩展 的 模块 接口 ， 该 接口 使 用 户 算法 和 工 





是 由 SGI (Silicon Graphics Inc.) 公司 ] 
高 级 统计 和 可 视 化 工具 。 特 色 是 它 
有 具 ， 树 可 视 化 工具 ， 地 图 可 视 化 工具 ， 多 维 数据 分 散 可 视 化 了 














品 做 








个 简单 的 介绍 。 














的 系统 ， 

















它 也 提供 











缩 ， 二 是 它 与 IJBM DB/2 关系 数据 库 系统 紧密 地 
是 SAS 公司 开发 的 产品 ， 提 供 多 种 数据 挖掘 算法 ， 包 括 ;: 
具有 多 种 统计 分 析 工 具 ， 这 






































k 有 的 强大 的 图 形 工 














Intelligent Miner 


Tf 发 的 ， 它 也 提供 了 多 种 数据 挖 




















书 中 ， 我 们 不 想 详 细 的 描 
品 能 做 什么 事情 有 一 个 大 


























功能 的 
这 里 我 们 介绍 几 个 提供 














了 很 多 数据 挖掘 算法 ， 包 括 : 关联 ， 




















一 个 应 用 工具 集 ， 包 括 : 
的 特色 有 两 点 : 
结合 在 一 起 。 


直 口 
回归 ， 分 类 和 统 




















得 益 于 SAS 公司 在 统计 分 析 市 场 多 年 的 经 验 





胃 算 法 ， 包 括 : 
有 具 ， 包 括 : 规则 可 视 化 工 








[ 具 ， 它 们 用 于 实现 数据 和 数据 挖 

















ISL(Integral Solutions Ltd.) 公 司 开 发 的 , 它 为 终端 用 户 逢 
成 的 数据 挖掘 开发 环境 ,系统 集成 了 多 种 数据 挖掘 











算法 ,如 : 规则 归纳 ， 

















0 开发 者 提供 了 一 个 集 
神经 网 络 ， 分 类 和 可 视 



































可 以 加 到 








Clementine 的 可 视 化 编程 环境 中 。Clementine 已 经 被 SPSS 公司 收购 。 
@ DBMiner 是 由 DBMiner Tnolosy 公司 开发 的 ， 它 提供 多 种 数据 挖 据 方法 包括 : 发 现 驱 动 的 


OLAP 分 析 ， 关 联 ， 
包含 多 种 有 效 的 频繁 模式 挖掘 功能 和 集成 的 可 视 化 分 类 方法 , 附录 了 对 该 系统 做 了 更 加 详细 


介绍 。 
还 有 很 多 其 它 的 商 





分 类 ， 午 





















































据 仓 库 和 数据 挖掘 产品 比较 感 兴 


10. 3 数据 挖掘 的 其 他 主题 




































































聚 类 。DBMiner 的 特色 是 它 的 基于 数据 立方 体 的 联机 分 析 挖 据 ， 它 

















的 





j 数 据 挖 掘 产 品系 统 和 研究 原型 ， 其 发 展 也 很 快 ， 有 些 读者 可 能 对 当前 的 数 



















































































数据 挖掘 范围 很 广 ， 有 很 多 数据 挖掘 的 方法 ， 本 书 不 可 能 覆盖 所 有 的 数据 挖掘 主题 ， 这 一 部 分 
我 们 主要 讨论 几 个 在 本 书 前 面 章节 中 没有 涉及 到 的 比较 有 趣 的 主题 。 
10. 3. 工 视频 和 音频 数据 挖掘 

可 视 化 数据 挖掘 用 数据 或 知识 可 视 化 技术 从 大 的 数据 集中 发 现 隐 含 的 和 有 用 的 知识 。 人 们 的 视 
觉 系统 是 由 眼睛 和 人 脑 控制 的 ， 后 者 可 看 作 一 个 强 有 力 且 高 度 并 行 的 处 理 和 推理 引擎 ， 它 带 有 一 个 
大 的 知识 库 。 可 视 化 数据 挖掘 把 这 些 强大 的 组 件 有 效 地 组 合 起 来 ， 使 它 成 为 一 个 吸引 人 的 有 效 的 工 
4， 用 来 对 数据 的 属性 ， 模 式 ， 簇 ， 孤 立 点 进行 综合 分 析 。 











下 方面 进行 融合 : 
数据 可 视 化 数据 库 和 数据 仓库 
组 合 起 来 的 。 


可 视 化 数据 挖 寺 
媒体 系统 ， 人 机 























接口 ， 模 式 识别 ， 


人 











以 看 作 是 有 不 同属 性 和 维 



































加 可 看 作 是 由 数据 可 视 化 和 数据 挖掘 两 个 学 科 融 

















高 性 能 处 理 都 紧密 相关 。 总 之 ， 








合 而 成 的 。 它 和 计算 机 图 形 ， 多 
数据 可 视 化 和 数据 挖掘 可 以 从 以 



































的 数据 可 看 
数据 外 


和 具有 不 同 











三 维 





立方 体 ,数据 分 布 图 表 ， 





























线 ， 

















中 的 多 维 空 

















的 形式 描述 出 来 。 
据 ), 以 及 决策 树 , 关联 规 贝 














间 数 据 分 布 。 可 视 化 显示 能 把 数据 库 ! 
数据 挖掘 结果 可 视 化 ”数据 挖掘 结果 可 视 化 指 将 数据 挖掘 后 得 到 的 知识 和 结果 用 
分 (scatter Dotse 和 盒 状 图 〈 通 过 
一 般 规则 , 等 等 。 如 图 


这 些 形式 包括 分 散 划分 
小 敌 ， 





























孤立 点 ， 











Miner 的 分 散 划分 结果 。 图 











10.4 显示 的 是 MiniSet 3.0 中 的 一 








关联 的 平面 来 









































述 从 数据 库 ! 
图 10.6 是 IBM Intelligent Miner 提供 
数据 挖掘 过 程 可 视 化 ”这 种 可 视 化 有 
据 是 从 哪个 数据 库 或 数据 仓库 ， 
的 .而 且 , 可 以 看 出 数据 挖掘 选用 的 方法 ， 











挖掘 出 来 的 一 些 关 联 规则 。 









































抽取 出 来 的 ,怎样 # 
































Clementine 数据 挖掘 系统 的 一 个 可 视 化 的 数据 挖掘 过 程 . 











交互 式 的 可 视 化 数据 挖掘 
有 具 , 它 用 来 帮助 
或 列 (取决 于 整个 空 
以 帮助 
的 是 一 个 这 样 的 例子 , 它 
出 界面 . 

































































10.1 StatSoft 中 展示 多 变量 纪 








j 户 做 出 明智 的 数据 挖掘 决策 .例如 ,一 
间 是 使 用 一 


HE 
路 
还 
加 
沪 
Da 











10.2 StatSoft 





交互 式 的 可 视 化 数据 挖 ， 























一 个 圆 形 描述 还 是 使 用 列 











的 粒度 或 不 同 的 抽 
引用 多 种 可 视 化 方式 进行 描述 ， 
平面 ,连结 图 , 等 等 。 图 10.1 和 图 10.2 显示 了 StatSoft 
数据 特性 


结果 存储 的 地 方 及 显示 方式 .图 10.7 


昌 在 数据 挖掘 过 程 ， 
系列 属性 的 数据 分 布 可 以 用 彩色 扇 区 








象 级 别 ， 也 可 
比如 : 盒 状 图 ， 




















:的 总 体 印 象 提供 给 用 户 。 




















可 视 化 
述 性 的 数据 挖 
10.3 中 显示 的 SAS Enterprise 
] 一 个 和 一 些 直方 图 






























































个 画面 , 它 

















10.5 是 MiniSet 3.0 的 决策 树 。 
的 秘 以 及 与 其 相关 的 属性 . 

昌 可 视 化 形式 描述 各 种 挖掘 过 程 ,从 中 用 户 可 以 看 出 数 
] 取 的 以 及 怎样 清洗 ,集成 , 预 处 理 和 挖掘 


























述 了 





























使 用 了 可 视 化 工 








的 集合 描述 ) 来 表示 ,这 种 表示 方 








式 可 























j 户 决定 哪个 局 区 作为 分 类 首先 被 选 中 ,哪个 地 方 是 最 好 扇 
发 的 PBC(perceptinb-based classification) 系 统 的 输 




















是 Munich 大 学 开 

















多 维 数据 分 布 分 析 











10.3 SAS Enterprise Mine 





10.4 MiniSet 3.0 中 的 关联 








数据 挖掘 结果 的 可 视 化 
规则 可 视 化 








区 分 割 点 。 10.8 显示 


10.5 MiniSet 3.0 中 的 决策 树 可 视 化 























































































































图 10.6 IBM Intelligent Miner 中 艇 分 组 的 可 视 化 

图 10.7 Clementine 中 数据 挖 据 的 可 视 化 

图 10.8 Perception-based classification(PBO): 一 种 交互 的 可 视 化 挖掘 方法 

音频 数据 挖掘 用 音频 信和 号 来 显示 数据 模式 或 数据 挖掘 结果 的 特征 .尽管 可 视 化 数据 挖掘 用 图 形 
显示 能 揭露 一 些 有 趣 的 模式 ,但 它 要 求 用 户 专注 于 观察 模式 ,确定 其 中 有 趣 的 或 新 的 特征 .这 有 时 是 很 
烦人 的 ,如 果 模 式 能 转换 成 声音 和 音乐 ,这 样 我 们 就 可 以 通过 听 基 调 ,旋律 ,曲调 和 音调 而 不 是 看 图 片 
来 确定 任何 有 趣 的 或 不 同 寻常 的 东西 .在 很 多 情况 下 ,这 种 方式 可 能 比较 轻松 ,因此 ,用 音频 数据 挖掘 








代替 可 视 化 数据 





10.3.2 科学 和 统 





本 书 中 描述 的 数据 控 和 











然而 还 有 很 多 用 











讨论 超出 了 本 
参考 目录 中 给 | 
@ 





HH 
口 





有 很 多 种 加 
足 通常 的 条 
广义 线形 模 
一 个 分 类 响 


数值 响应 变 





是 在 布点 - 








方差 分 析 〈 


回归 一 般 来 说 ,这 些 方法 月 


回归 树 (regression tree) 
上 做 这 方面 有 点 类 人 
作为 叶子 ,回归 树 是 通过 计算 




















挖掘 是 一 个 有 趣 的 选择 . 
计数 据 挖掘 








加 技术 主要 是 面向 数据 库 的 ,月 

















聚 类 ,已 














归 , 和 在 本 书 ; 


昌 于 处 理 大 量 的 多 维和 各 种 复 
于 统计 数据 尤其 是 数值 数据 分 析 的 技术 ,这 些 技 术 已 经 被 扩展 应 月 
医学 ,电子 工程 ,或 制造 业 的 实验 数据 ) 以 及 经 济 或 社会 科学 数据 中 。 


(principle component analysis ) ,加 


过 .对 数据 分 析 中 的 主要 统计 方法 的 透 














杂 类 型 的 数据 . 
到 科学 (如 心理 学 ， 
中 一 些 技术 ， 如 主要 成 分 分 析 
彻 的 














加 | 























昌 来 预测 从 一 个 或 多 个 取 测 
归 方 法 ,如 :线形 
件 或 者 数据 包含 重要 的 外 层 是 强 
型 (generalizzed linear model) 
应 变量 (或 它 的 一 些 变 利 


量 类 似 ,. 



































这 可 上 








回归 ,多 回归 ,加 权 回 归 , 多 项 式 回归 ,无 参数 
回归 方法 非常 有 
这 些 模型 和 它们 
站 和 一 系列 预测 器 变量 相关 ,这 和 使 有 


日 于 分 类 和 预测 ,构造 成 的 树 是 二 又 树 ， 


区 的 范围 ,但 是 ,为 了 完整 性 起 见 ,下 面 我们 还 是 提 了 一 些 方法 .这 些 技术 的 参考 文献 在 











器 来 的 反应 变量 的 值 ,它们 是 数值 类 型 的 ， 
回归 , 强 回 归 ( 当 错误 不 满 
























































1) 
的 广义 模型 (通用 的 附加 模型 ), 允 许 
线性 回归 的 模型 中 的 














vt 











回归 树 和 决策 树 在 测试 都 

















以 ,它们 主要 的 
目标 属性 的 平均 值 


analysis of variance ) 






























































元 别 在 叶子 层 ,决策 树 是 通过 大 众 选举 产生 的 类 标号 
作为 预测 值 
这 些 技术 为 用 一 个 数值 响应 变量 和 一 个 或 多 个 分 类 变 





三 


时 


描述 








的 两 个 或 多 个 人 分 析 实 验 数据 .通常 ,一 个 ANOVA( 变 量 的 单 因 子 分 析 ) 问 题 通 过 k 个 人 或 对 待 方 








式 的 比较 ,来 决定 是 否 至 少 有 


混合 效应 模 


公共 


的 





精神 病 学 数 


试 成 绩 ) 是 可 能 的 ,这 上 


判别 式 分 析 


定 独 立 变量 遵循 多 元 的 通常 的 分 布 ,这 个 过 程 企 








用 来 





区 别 











因素 分 析 (factor analysis ) 








两 利 











这 些 模型 月 





型 (mixed-effect model) 



































方式 是 不 同 的 .也 存在 更 复杂 的 ANOVA 问题 . 

来 分 析 分 组 数据 ,也 就 是 那些 月 
变量 分 类 的 数据 ,它们 通过 一 个 或 多 个 因素 来 描述 一 个 响应 变量 和 一 
领域 包括 多 层 数 据 ,重复 值 数据 , 块 设计 数据 和 纵向 数据 ， 





一 个 或 多 个 
变量 之 间 的 关系 .应 上 


日 
j 











些 壮 


-一 人、 














这 种 方法 用 来 决定 
据 , 不 可 能 值 测量 某 个 特别 的 因子 (例如 


没有 设计 依赖 变量 . 


























对 些 变量 
智能 





块 F 
), 然 而 ,月 


生 了 一 个 给 定 因子 ,比如 ,对 许多 
于 测量 其 它 的 数量 (比如 学 生 考 























技术 上 





(discriminant analysis) 这 利 











名 











日 来 预测 分 类 响应 变量 ,不 象 通 
决定 几 个 判别 式 函 数 (独立 变量 的 线性 组 合 )， 














的 线形 模型 , 假 











响应 变量 定义 的 组 ,判别 式 分 析 在 社会 科学 中 经 常 使 用 . 











时 间 序 列 有 很 多 统计 技术 用 来 分 析 时 间 序 列 数据 ,例如 自动 回归 方法 , 单 变 和 


长 记忆 (dong memory) 的 时 间 序 列 模型 . 


幸存 分 析 ( 
疗 后 能 或 至 




















survival analysis) 


少 t 这 么 长 时 间 , 生 存 分 析 的 方法 也 用 于 第 


9 














有 好 几 种 统计 技术 用 于 生存 分 析 , 起 初 用 了 

















的 ARIMA 模型 ， 











预测 一 个 病人 经 过 治 





j 造 设备 ,来 估计 工业 设备 的 生命 周期 .流行 


的 方法 包括 Laplan-Meier 幸存 估计 法 ,Cox 比例 危险 回归 模型 ,以 及 它们 的 扩展 . 





cusum 图 表 . 


质量 控制 (quality control) 





各 种 统计 法 可 以 用 来 准 
(都 月 








区 间 (moving range). 








医 


备 质量 控制 的 








表 , 例 如 Shewhart 图 表 和 








于 显示 组 合 统计 ) 这 些 统计 包括 :平均 值 ,标准 差 (standard deviation), 区 间 , 计 数 , 移 
动 平均 ,移动 标准 差 , 和 移动 


10. 3. 3 数据 挖掘 的 理论 基础 


有 关 数 据 挖 掘 的 理论 基础 研究 还 没有 成 熟 。 坚 实 系统 的 理论 基础 对 于 数据 挖掘 
它 给 数据 挖掘 技术 的 开发 、 评 价 和 实践 提供 一 个 一 致 的 框架 。 


括 以 下 内 容 : 
@ 
数据 

主要 


数据 归 约 (data reduction ) 
库 里 , 数据 归 约 能 换 来 快速 近似 查询 的 准 而 
组 件 分 析 背 后 的 驱动 元 素 )， 小 波 ， 回 归 ， 日 志 线 形 模型 
(histogram)， 艇 ， 取 样 和 索引 树 构 造 。 
数据 压缩 (data compression ) 
它 一 般 是 通过 按 位 、 关 联 规则 ， 决 策 树 ， 
















































































根据 这 





艇 等 进 














按照 这 一 理论 ， 数 据 挖掘 的 基础 是 减少 数据 的 
外 性。 数据 归 约 技术 主要 包括 奇异 值 分 解 (在 


里 论 , 数据 挖掘 的 基础 是 对 给 定 的 数据 进行 压缩 ， 
行 编码 实现 的 。 根 据 最 小 描述 长 度 原 理 





F 常 重要 ， 








因为 











数据 挖掘 的 理论 基础 有 很 多 ， 比 如 包 











述 。 在 大 型 
































(log-linear model)， 直 方 图 




















(minimum description length principle) 认 为 ， 从 一 个 数据 集合 中 推导 出 的 最 好 的 理论 是 这 样 
的 理论 ， 即 它 本 身 的 长 度 和 用 它 作 为 预测 器 (predicator) 进行 编码 的 长 度 都 最 小 。 编 码 典 
型 的 是 按 位 编码 。 


分 类 


模式 发 现 〈pattern discovery) ”这 个 理论 基础 是 | 
模型 ， 序 列 模式 
类 ， 和 其 它 的 子 领域 。 





概率 





数据 




















归纳 数据 库 (inductive databases) 
的 模式 和 数据 组 成 的 ， 数 据 控 
库 中 的 数据 和 














上 上 述 理 


























里 想 的 理论 框架 应 该 能 够 对 





会 


月 





了 
性 


上 5 








， 能 够 处 理 不 同形 式 的 数据 ， 并 且 对 数据 控 # 
些 要 求 的 定义 很 好 的 数据 挖 气 框 架 是 我 们 进 


里 论 (probability theory ) 
随机 变量 的 联合 的 可 能 的 分 布 ， 例 如 ， 贝 叶 其 
贝 叶 斯 模型 (hierarchical Bayesian models)。 
微观 经 济 观点 (microeconomic view ) 























笃 稚 
» 本 可 oo 












































站 























的 话 则 认为 它 是 有 趣 




















于 在 数据 库 中 发 现 模式 ， 比 如 关联 规则 ， 
它 涉及 机 器 学 习 ， 神 经 网 络 ， 关 联 挖掘， 序列 模式 挖掘 ， 聚 














它 基 于 统计 理论 。 依 据 这 一 理论 ， 数 据 挖掘 的 基础 是 发 现 
置信 网 络 (Bayesian belief network) 和 层次 








它 把 数据 挖掘 看 作 发 现 模式 的 任务 ， 通 过 数据 挖掘 
来 发 现 那些 对 企业 决策 过 程 《 如 指定 市 场 策略 ， 产 品 计划 等 ) 有 用 的 并 在 一 定 程度 上 有 趣 
的 模式 。 这 个 观点 认为 如 果 模 式 能 发 生 作 :月 
的 时 候 最 大 限度 的 使 用 这 个 对 象 。 在 此 数据 挖掘 变 成 一 个 非 线性 的 优化 问题 。 
































的 。 企 业 在 碰 到 优化 问题 
























































步 努 力 的 目标 。 


10. 3. 4 数据 挖掘 和 智能 查询 应 答 


在 我 们 的 数据 挖掘 过 程 的 处 理 框 架 中 ， 其 处 理 是 | 
数据 ， 要 求 发 据 的 知 
地 知道 要 挖掘 什么 东西 
query answering) 在 这 种 情 
了 述 数据 挖掘 和 


























Fi 





数据 ， 它 与 数据 库 系统 
它 知 识 ， 它 对 应 于 对 数据 库 知 i 
例如 ,“ 找 
这 些 顾客 的 通用 特征 和 他 们 还 可 能 要 购买 什么 ” 属 了 
| 一 个 数据 挖掘 的 过 程 导 

机 人 制 可 以 根据 它们 反应 方式 的 不 同 分 为 如 下 两 类 : 直 
) 碍 询 应 答 。 直 接 碍 询 应 答 是 指 通过 精确 地 返回 


它 的 规则 等 。 

















据 库 中 的 知识 ， 通 常 要 


查询 应 答 


answering) 和 


智能 (或 协同 























出 




















具 种 类 ， 关 联 限 人 


4 元 下 
智能 查询 应 答 结 合 
型 的 查询 ， 数 据 查询 和 知识 查询 (knowledge query)。 数 据 查 询 月 
的 一 个 基本 的 检索 语句 对 应 。 知 










































































能 攻 











助 分 析 

















的 一 个 通用 的 框架 。 

















在 这 个 模式 中 ， 数 据 库 模式 看 作 是 1 
必 的 问题 变 成 了 对 数据 库 进 行 归纳 的 问题 ， 它 的 任务 是 查询 
理论 ( 即 模式 )。 这 个 观点 在 数据 库 系统 的 许多 研究 者 当中 非常 流行 。 


查询 初始 化 的 ， 即 由 查询 
关 ， 有 趣 的 阔 值 等 。 然 而 ， 在 很 多 情况 下 ， [| 
或 者 数据 库 有 什么 限制 , 因此 不 能 给 出 精确 的 查询 。 智 能 查询 应 答 (intelligent 
3 户 的 目的 ， 用 智能 的 方式 回答 查询 请 求 。 

在 数据 库 系统 中 ， 可 能 存在 
日 来 发 现存 





识 查 询 




















在 2000 年 5 月 购买 尿布 的 所 有 顾客 的 ID 





























用 来 发 现 规则 、 模 式 和 数据 库 ， 
上 的 查询 ， 包 括 演绎 规则 、 完 整 性 约束 ， 概 化 规则 ， 频 繁 模式 以 及 其 
号 2 


F 知 识 查 询 ， 其 查询 对 象 并 没有 明显 地 存储 在 数 














存储 在 数据 库 中 























论 不 是 互相 排斥 的 ， 例 如 ， 模 式 发 现 可 以 看 作 是 数据 归 约 和 数据 压缩 的 一 种 形式 ， 一 个 
型 的 数据 挖掘 任务 〈 如 关联 ， 分 类 和 聚 类 ) 进行 建 模 ， 有 一 个 概率 特 
加 的 反复 和 交互 的 本 性 加 以 考虑 。 建 立 一 个 能 满足 这 





指定 和 任务 相关 的 
] 户 可 能 并 不 精确 
























































两 种 类 
渚 在 数据 库 系统 中 的 具体 
的 其 
































5. 














属于 数据 查询 ， 而 “描述 





























类 ， 



































而 智能 查询 应 答 包 括 两 个 阶段 ， 先 分 析 查 询 目 的 ， 然 后 返回 


























通 





的 类 似 的 相关 的 信息 。 


直接 查询 应 答 (direct query 
所 要 的 东西 来 回答 查询 ， 


返回 与 查询 





























相关 的 信息 但 是 并 不 是 明显 要 求 的 东西 提供 了 对 相同 查询 的 智能 回答 。 











Example 10.1 假设 一 个 网 上 在 线 商 店 ， 
线 事务 历史 库 , 和 web 知识 库 。 











数据 查询 是 执行 许多 在 线 服务 的 例 和 
四 月 购买 的 所 有 的 东西 





出 Jack Waternan 在 2000 年 







































































目 列表 ， 而 智能 回答 提供 给 用 户 的 是 用 
术 相 结合 来 提高 商店 服务 的 几 个 例子 。 
































于 辅 


助 决策 的 附加 





是 知 








言 息 。 这 里 






















































































不 同 种 


























@ 通过 提供 综合 信息 来 回答 查询 ” 当 客 户 查 询 当 前 正太 
息 ， 比 如 : 关于 自行 车 的 最 好 交易 ， 去 年 卖 出 的 每 一 种 自行 车 的 数量 ， 
的 新 特性 等 ， 这 些 综合 信息 可 以 用 数据 仓库 和 数据 挖掘 技术 得 到 。 
@ 通过 关联 分 析 来 得 出 附加 项 目 当 一 个 客户 想 购买 某 利 
附 
买 这 种 自行 车 的 维修 服务 吗 ? ” 这 样 就 可 以 推动 公司 的 其 它 产 品 销售 额 。 
@ 


























出 来 的 序列 模式 建议 他 考虑 同时 购买 其 它 的 一 些 东 西 ， 比 如 :“ 购 买 这 种 个 人 
月 之 内 很 可 能 要 再 买 菜 种 特殊 的 打印 机 或 CD-ROM ”或 者 送 给 用 户 一 个 短期 优 





从 这 几 个 例子 可 以 看 出 ,使 

















用 数据 挖掘 方法 的 智能 查询 应 答 能 够 给 电子 商务 应 用 








服务 .这 有 可 能 形成 数据 挖 握 重 要 的 应 
10. 4 数据 挖掘 的 社会 影响 








随 着 社会 的 快速 计算 机 化 ,数据 挖掘 的 社 








八 时 少 
会 影 


通过 序列 模式 挖掘 来 促进 产品 销售 ” 当 客 户 在 线 购买 一 台 个 人 电脑 时 ， 系 统 可 能 根据 以 前 挖掘 
E 脑 的 人 在 三 个 








惠 券 
TS » 
































步 的 探索 

















心 维护 了 几 个 数据 库 , 这 儿 个 数据 库 可 能 包括 在 线 知识 库 ,在 


例如 这 样 的 查询 “ 列 出 所 有 在 卖 的 自行 车 ”， 或 者 “ 找 
” 对 这 些 查询 的 直接 回答 是 列 出 有 特定 属 
能 查询 应 答 和 数据 挖掘 技 


性 的 项 








E 卖 的 自行 车 列表 时 ， 提 供 附加 的 综合 信 
类 自行 车 吸引 人 


特殊 牌子 的 自行 车 时 ， 可 以 提供 给 用 户 
加 的 关联 信息 ， 如 “ 想 购买 这 种 自行 车 的 人 可 能 要 购买 下 列 运动 设备 ”， 或 者 “你 将 考虑 购 








提供 更 有 趣 的 


响 不 可 低估 。 数据 挖掘 是 宣传 出 来 的 还 是 真正 存在 





的 ? 数据 挖掘 成 为 一 种 被 接受 的 主流 企业 或 个 人 应 用 技术 会 碰 到 那些 障碍 ?保护 数据 隐秘 和 安全 





还 需要 做 些 什 么 ? 下 面 对 每 个 问题 做 出 





回答 。 





10. 4. 工 数据 挖掘 是 宣传 出 来 的 还 是 持久 的 稳定 增长 的 商业 ? 

















数据 挖掘 最 近 变 得 很 流行 ， 很 多 人 都 投 号 到 数据 挖掘 的 研究 、 开 发 和 商业 中 ， 并 宣称 它们 的 软 
件 系统 是 数据 挖掘 产品 。 观 察 一 下 就 会 发 现 ,“ 数 据 挖掘 是 宣传 出 来 的 还 是 真正 存在 的 ? 它 怎样 被 





人 们 作为 一 种 技术 很 好 的 接受 ? ” 














坦白 地 说 ， 数 据 挖掘 从 二 十 世纪 八 十 年 代 出 现 以 来 关于 它 的 宣传 有 很 多 ， 尤 其 是 许多 人 希望 数 





据 挖掘 能 成 为 一 种 从 数据 中 挖掘 知识 的 工具 ， 使 它 能 帮助 企业 经 











其 它 很 多 有 趣 的 事情 。 











数据 挖 气 是 一 种 技术 ， 和 其 他 技术 一 样 ， 数 据 控 据 也 需要 时 间 
























































最 终 被 人 们 接受 。 整 个 生命 周期 应 包含 下 列 几 个 阶段 〈 图 10。9): 
@ 创新 者 〈innovator): 研究 者 开始 认识 到 需要 找到 解决 某 个 问题 的 方法 时 ， 新 的 技术 就 开 
始 出 现 了 。 
@ 早期 接受 者 (early adopter):” 当 关于 这 项 技术 提出 的 方法 越 来 越 多 的 时 
趣 就 相应 增长 了 。 
@ ”停滞 (chasm): 一 种 技术 被 作为 主流 技术 广泛 接受 之 前 必须 碰 到 的 障 得 或 挑战 
@ 早期 多 数 接受 者 〈early majority): ”这 种 技术 成 熟 并 被 广泛 接受 和 应 用 。 
@ 后 期 多 数 接受 者 (late majority): ”这 种 技术 被 广泛 接受 ,但 由 于 初始 的 问题 ， 
兴趣 减 小 ， 它 或 者 变 得 不 重要 ， 或 者 被 其 他 需求 取代 。 
@ 落后 〈laggards): ”因为 过 时 ， 这 种 技术 开始 消失 。 
后 
创 前 时 > 。 洛 
中 数 ; 
新 接 接 . 
油 二 又 
者 者 ;市 专 者 后 


























































































































蛙 作 决策 ， 促 进 商业 竞争 ， 或 者 做 





疼 ， 人 们 对 它 的 兴 


人 们 对 它 的 


10。9 技术 采纳 (technology adopter) 的 生命 
8 么 ， 数 据 挖掘 正 处 于 哪个 阶段 ? ” 
据 挖掘 成 为 一 种 广泛 接受 的 技术 ， 本 书 





户 交 互 ， 和 背 
提高 复杂 数据 类 

数据 挖掘 要 
的 数据 挖掘 系 
他 们 需要 懂 关 
这 些 系统 者 
特定 商业 应 用 
我 们 不 能 期 望 
数据 库 系统 在 




















趋向 了 


忆 . 
怀 


型 的 可 控 
走 过 停 冰 








统 ， 
联 规则 , 分 类 





和 








的 解决 方案 。 
通用 的 数据 挖 






































许多 数据 
越 来 越 多 的 公 











挖掘 研究 者 和 开 








司 从 建立 在 Web 





数据 ， 网 上 商 
务 应 用 提供 特 





理想 情况 下 , 这 样 的 系统 全 


这 些 系统 











业 或 电子 
殊 领 域 的 数据 挖 


请 1 


乙 摧 














聚 类 等 


提供 适用 于 各 种 商业 应 用 的 横 
于 有 效 的 数据 挖 和 
时 系 统 在 商业 智能 方面 能 够 取得 多 么 大 的 成 功 ， 就 象 与 领域 无 关 的 关系 
商业 事务 和 查询 处 理 上 取得 的 成 功 一 样 。 
发 者 相信 : 











技术 。 这 前 





上 





后 
山 





使 











周期 





FP 作为 挑战 提 到 的 很 多 地 方 ( 如 有 效 性 
TD Re 
制 性 ，web 查询 等 
带 期 ， 我 们 需要 关注 数据 挖 气 和 现存 商业 技术 的 集成 。 目前 已 经 有 很 多 通 
但 是 , 他 们 中 的 很 多 都 是 给 那些 非常 熟悉 数据 挖 据 和 数据 分 析 技 术 的 专家 设计 
这 些 系 统 很 难 被 企业 经 理 或 普通 百姓 使 用 。 
(horizontal solution )， 


ji 要求 商 业 逻 辑 与 数据 挖掘 功能 的 平 清 的 集成 ， 所 以 


等 ) 都 需要 做 进 一 





向 解决 方案 





最 近 有 些 讨 论 认为 数据 挖 气 正 处 于 停滞 阶段 。 























步 的 研究 和 





发 。 




















和 可 全 








为 了 让 数 


缩 性 ， 增 力 
岗 有 趣 模式 的 有 效 方法 ， 


I 用 











用 
的 

















数据 挖 ] 





据 比 较 有 





前 途 的 方向 是 创建 和 
(vertical solution) 的 数据 挖掘 系统 ， 也 就 是 ， 把 特殊 领域 的 商业 逻辑 和 数据 挖掘 系统 


























子 商务 成 为 数据 挖掘 很 有 前 途 
解决 方案 。 
目前 ， 许 多 定制 的 系统 需要 具有 面向 市 场 浣 争 管理 








E 同 时 提供 








侈 的 应 









































而 不 是 针对 








而 且 ， 


某 个 








E 够 提供 纵向 解决 方案 


化 


pa 








EE (通常 叫 电子 市 场 (e-marketing)) 的 


成 起 来 。 由 于 
上 的 电子 商店 (e-store)〉( 也 称 为 Web 商店 (Web store) ) 收 集 大 量 的 
。 因 此 ， 我 们 应 该 仔细 琢磨 怎样 给 电子 商 


功能 





客户 数据 分 析 ( 把 OLAP 和 挖掘 技术 先入 到 友好 的 用 户 界面 中 )， 
客户 个 性 分 析 〈profiling) (或 一 对 一 片段 (one-to-one segment) )， 竞 争 出 局 ， 和 竞争 分 析 。 


日 益 增 加 使 用 数据 挖掘 来 进行 客户 关系 管理 








《CRM)， 以 期 在 大 规模 的 市 场 中 














8 助 公 


司 给 他 们 的 客户 提供 更 特殊 的 个 人 化 的 服务 。 通 过 研究 Web 商店 的 浏览 和 购买 模式 (比如 通过 分 析 
点 击 流 〈clickstreams)， 也 就 是 用 户 通过 鼠标 点 击 提供 的 信息 )， 公 司 能 够 得 到 更 多 的 关于 某 个 用 户 


或 用 户 组 的 信息 。 








以 更 好 的 理解 











用 户 的 需求 。 


满足 这 些 需 











这 些 信息 将 使 公司 和 客户 同时 受益 。 例 如 ， 如 果 有 非常 准确 
求 将 会 在 很 多 方面 取得 更 大 的 成 功 ， 如 术 




















的 客户 模型 ， 








公司 


司 可 


当 佳 





日 关 产品 的 连带 销售 














(cross-selling )、 提 高 销售 额 (up selling)、 一 对 一 促销 (one-to-one promotion)、 产 品 吸 引力 (production 


affinity)、 





销 正 好 满足 客户 个 性 需求 的 话 ， 客 户 就 很 少 会 对 发 到 他 信箱 





动能 为 公司 节 

获得 满意 的 服 

提供 广告 。 
这 些 广告 
明和 看 

















OLAP， 用 户 安全 ， 库 存 和 订 重 


约 很 多 花 销 。 客 户 将 会 喜 





务 。 公 司 除了 在 网 

















上 商 ) 


是 通过 客户 个 性 信息 和 统计 信 ， 
外 数据 挖 据 只 是 集成 解决 方案 的 一 项 内 容 





占 散 发 / 














的 垃圾 邮件 感到 





欢 你 通知 他 购买 他 真正 感 兴趣 
告 外 ， 将 来 还 可 以 在 数字 电视 和 
























































AAA 
a 














mm 


广 








因为 某 些 特定 的 用 户 或 用 户 旨 
容 是 很 重要 的 ， 
品 管理 等 等 。 








10. 4. 2 数据 挖掘 只 是 经 理 的 事 还 是 每 个 人 的 事 ? 





数据 挖掘 





在 帮助 公司 经 理 理 解 市 场 和 商业 上 了 
每 个 人 的 事 ? ” 随 着 越 来 越 多 的 数据 可 以 从 网 上 或 者 你 自己 的 磁盘 




















利用 数据 挖掘 
据 挖掘 系 统 ， 
挖掘 的 需求 ， 


“我 在 家 








在 此 基础 上 选 
自动 地 创建 分 
的 例子 包括 通 
谷 ， 变 得 更 力 





























来 理 





解 你 访 





问 的 数据 并 从 中 




















日 专门 














一 揽 子 购买 (arger basket)、 客 户 保持 (customer retention〉 等 。 如 果 所 做 的 定制 广告 和 促 


有 展 烦 了 。 所 有 这 些 活 


在 线 加 





设计 的 。 


书 以 及 报纸 上 


的 东西 ， 从 而 节约 个 人 时 间 ， 





它 还 有 数据 清洗 和 数据 集成 ， 











作用 很 大 ， 但 是 ,，“ 数 据 挖 





上 得 到 ， 在 

















它们 
并 且 


功能 


具有 使 月 


























避 合 已 


里 用 数据 挖掘 能 














类 来 管理 
过 挖 








强 ， 用 户 界 下 
他 们 的 手段 是 可 能 的 ， 换 句 训 
业 分 析 者 组 成 的 传统 知识 分 子 使 用 ， 每 个 人 都 将 可 以 得 到 
做 些 什 么 











更 加 友好 











甩 ?”， 














能 挖 
作 ， 你 可 以 有 




















3 你 可 以 通 














数据 挖 
据 你 们 家 的 医学 史 ， 确 定 出 和 遗传 有 关 的 医学 条 件 的 模式 ， 上 
助 你 决策 你 的 寿命 和 健康 状况 ; 将 来 , 你 可 
择 最 好 的 公司 进行 合 


你 收 到 的 消息 过 挖 和 


受益 是 可 能 的 。 而 且 ， 随 着 
多 才 多 艺 。 
5 说， 数据 挖掘 不 可 能 一 直上 只 被 由 经 理 和 商 





并 且 更 加 














Cp 


Es 





=] 
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能 具有 很 多 个 人 月 


FE 移 











因 只 是 经 理 














时 间 的 




















因此 ， 每 














日 处 。 





























明和 你 打 过 交道 的 公司 的 记录 并 且 订 





基于 内 容 的 文本 挖 寺 
票 或 公司 的 业绩 来 加 
必 网 上 商店 来 找 出 最 好 的 交易 项 目 或 最 好 的 休假 方式 。 这 样 ， 当 数据 挖 扩 
普通， 有 更 多 的 个 人 计算 机 和 网 上 数据 ， 数 据 控 





图 股 有 


如来 查找 你 
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村 





必 将 被 


的 事 还 是 


日 常 工作 或 生活 
会 出 现 更 多 的 数 





mel 











要 























片 








个 人 都 具有 





例如 : 





使 








| 数据 





你 可 能 想 挖 
如 癌症 和 染色 体 变异 ， 这 些 知 识 能 帮 
F 价 他 们 
的 E-mail 消息 ， 
助 你 进行 投资 ， 其 它 


的 服务 ， 


或 者 


走出 低 





LU 


和 通 大 众 所 接受 ， 并 最 终 成 为 





每 个 人 手中 的 工具 。 

“那么 ， 在 使 用 数据 挖掘 之 前 我 必须 理解 数据 挖掘 系统 和 数据 挖掘 算法 的 内 容 么 ” ” 就 象 电 
视 、 计 算 机 、 办 公 软 件 一 样 ， 我 们 希望 用 一 种 用 户 友好 的 数据 挖掘 工具 ， 而 不 需 太 多 的 培训 。 而 且 
将 会 有 更 多 的 智能 软件 隐 含 地 把 数据 挖掘 作为 他 们 的 功能 部 件 ， 例 如 : 智能 网 上 搜索 引擎 ， 适 应 用 
户 的 网 上 服务 ， 智 能 数据 库 系统 ,协同 查询 应 答 (cooperative query answering ) 系统 ，e-mail 管理 右 ， 
日 历 管理 器 ， 售 票 系统 ， 等 等 ， 他 们 可 以 把 数据 挖掘 模块 作为 他 们 内 部 的 模块 ， 用 户 根本 感觉 不 到 
它 的 存在 。 数 据 挖掘 的 这 种 隐 含 的 应 用 叫做 不 可 见 的 数据 挖掘 (invisible data mining)。 期 望 将 来 不 可 
见 数据 挖掘 能 成 为 普通 大 众 执 行 有 效 数据 挖掘 的 重要 的 手段 。 


























































































































10. 4. 3 数据 挖掘 对 隐私 或 数据 安全 构成 威胁 么 ? 





























随 着 越 来 越 多 的 信息 以 电子 形式 或 从 网 上 得 到 , 并 且 有 越 来 越 多 的 数据 挖掘 工具 开发 出 来 并 投 
入 使 用 ， 我 们 可 能 想 知道 ,“ 数 据 挖掘 对 隐私 或 数据 安全 构成 威胁 么 ” ”数据 挖 握 和 其 它 任何 一 种 
技术 一 样 ， 它 的 应 用 有 好 的 一 面 也 有 坏 的 一 面 。 因 为 数据 挖掘 揭示 不 容易 发 现 的 模式 或 各 种 知识 ， 
如 果 不 正确 使 用 的 话 它 可 能 对 隐私 和 信息 安全 构成 威胁 。 

有 些 消费 者 为 了 使 公司 的 服务 更 好 地 满足 他 们 的 需求 ， 不 介意 给 公司 提供 个 人 信息 ， 例 如 ， 购 
物 者 如 果 能 得 到 打折 回报 的 话 ， 他 们 将 很 乐意 在 地 区 超市 的 荣誉 卡 上 签字 。 

如 果 你 停 下 来 想 一 下 ,记录 了 多 少 关 于 你 的 信息 ， 这 些 信息 都 说 了 些 什么 ? 每 次 在 你 使 用 信誉 
卡 、 肉 帐 卡 (debit card)、 超 市 荣誉 卡 、 宣 传 卡 (frequent flyer card)， 或 申请 这 些 卡 的 时 候 ， 当 你 在 
网 上 冲浪 、 回 答 网 上 新 闻 组 、 订 阅 杂 志 、 租 影碟 、 参 加 俱乐部 、 或 考试 登记 表 、 填 写 新 生 儿 信息 、 
付 药方 费用 的 时 候 ， 或 者 看 病 时 提供 你 的 医疗 卡 的 时 候 ， 关 于 你 的 个 人 信息 就 会 被 公司 收集 到 。 很 
明显 ， 收 集 信 息 很 容易 ， 并 不 局 限于 通过 零售 活动 来 进行 ， 它 可 以 反映 出 用 户 的 爱好 ， 财 力 ， 医 疗 ， 
和 保险 数据 。 下 次 做 上 面 类 似 的 事情 的 时 候 ， 可 以 仔细 想 一 想 ， 你 可 能 有 被 人 监视 的 感觉 。 

如 10。4。1 节 所 描述 的 ， 个 人 数据 的 收集 证 明 对 企业 和 消费 者 有 利 ， 但 也 有 被 误 用 的 问题 。 
如 果 这 些 数据 用 作 其 它 的 目的 ， 例 如 : 可 帮助 保险 公司 根据 你 购买 的 食物 来 确定 你 的 脂肪 消费 水 
平 ? 超市 可 以 用 荣誉 卡 来 指证 一 个 跌跌撞撞 的 购物 者 为 柄 酒 者 (基于 他 购买 的 酒 的 数量 )。 这 些 例 
子 只 是 用 来 说 明 客户 不 经 意 泄 漏 的 数据 可 能 反 过 来 对 他 本 人 构成 侵害 。 

考虑 上 述 问 题 的 时 候 ， 你 可 能 想 知 道 : 

@ “我 什么 时 候 给 公司 提供 过 我 自己 的 信息 ， 这 些 数据 会 被 用 于 了 我 所 不 希望 用 到 的 地 方 

吗 ? ?” 
@ “这 些 数据 被 卖 给 别 的 公司 了 吗 ? ” 
@ “我 能 发 现 记 录 的 关于 我 的 信息 是 什么 吗 ? ” 
@ “我 怎么 能 知道 哪个 公司 有 关于 我 的 信息 ? ” 
@ “我 有 权利 和 方法 拒绝 公司 使 用 我 的 个 人 数据 吗 ? ” 
@ “有 什么 手段 可 以 修改 我 的 个 人 数据 中 的 错误 ? 如 果 我 想 删 除 , 完善 , 增补 或 更 新 数据 怎么 
办 ? ” 

@ “关于 我 的 信息 可 以 “匿名 化 ” 或 者 可 以 跟踪 处 理 吗 ? ” 

@ “怎样 保证 数据 的 安全 ” 

@ “公司 如 何 对 收集 到 的 数据 负责 ， 如 果 丢 失 或 误 用 怎么 办 呢 ? ” 

这 些 问题 没有 简单 的 答案 。 有关 的 国际 性 准则 , 著名 的 公平 信息 实践 (fair information practices )， 
就 是 专注 数据 隐私 保护 , 它 涵盖 了 数据 收集 , 使 用 , 质量 , 开放 , 个 体 参与 (individual participation )， 
责任 等 方面 内 容 ， 它 包含 下 列 原则 : 

@ 目的 说 明和 使 用 限制 ”收集 数据 的 时 候 必 须 指 定数 据 的 使 用 目的 , 不 能 超出 此 目的 范围 使 
用 数据 。 数 据 挖掘 是 一 种 典型 的 使 用 收集 到 的 数据 另 做 它 用 的 行为 。 有 人 提出 过 这 样 的 建 
议 ， 即 对 允许 用 于 数据 挖掘 的 数据 附加 一 个 “放弃 ”的 申明 ， 但 因为 意图 过 于 暴露 而 未 被 
广泛 接受 。 由 于 数据 挖掘 具有 的 暴露 本 质 (exploratory nature)， 不 可 能 知道 什么 模式 该 发 
掘 ， 什 么 不 该 挖掘 ; 因此 如 何 使 用 数据 挖掘 没有 什么 确定 性 。 

@ ”开放 性 : 人 们 有 权利 知道 关于 他 们 的 什么 样 的 信息 被 收集 了 ， 由 谁 来 访问 数据 ， 以 及 数据 

怎样 使 用 。 

“那么 ， 考 虑 这 些 问 题 的 可 能 的 解决 方案 是 什么 ?” ”公司 应 该 提供 给 用 户 多 种 选择 ， 人 允许 用 户 
指定 他 们 个 人 数据 的 使 用 限制 ， 比 如 : 〈1) 消费 者 的 信息 不 允许 用 于 数据 挖掘 ;， (2) 消费 者 数据 能 
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j 于 数据 挖掘 ， 但 可 以 识别 用 户 的 信息 或 者 可 以 导致 识别 用 户 的 信息 被 泄漏 的 信息 应 该 删 掉 ，(〈3 ) 


数据 只 能 用 于 内 部 数据 挖掘 ; (4) 数据 可 用 于 内 部 或 外 部 数据 挖掘 ， 公 司 应 该 给 用 户 积极 的 承诺 ， 
允许 用 户 在 他 们 的 数据 用 于 第 二 目的 时 进行 选择 ， 最 好 用 户 可 以 用 免费 的 号 码 或 者 进入 公司 站 点 进 



























































行 选 择 ， 可 以 对 他 们 个 人 的 数据 进行 访问 。 














“数据 安全 性 怎样 ? ”数据 库 系 统 最 初 兽 遭 到 反对 ， 因 为 在 大 型 在 线 数据 存储 系统 中 






































人 的 数据 面临 着 安全 的 威胁 ， 许 多 数据 安全 增强 技术 〈data security-enhancing techniques ) 
以 发 展 。 尽 管 “ 黑 客 入 侵 ” 时 有 发 生 ， 但 鉴于 数据 库 管理 系统 带 来 的 实惠， 人 们 对 数据 的 安全 性 比 














































































































， 很 多 个 
因此 而 得 





较 放 心 ， 这 样 的 数据 安全 增强 技术 同样 可 以 用 于 数据 挖掘 ， 的 匿名 信息 和 隐私 保护， 这 些 技术 包 括 
讶 签名 (建立 在 公共 密 钥 加 密 基 础 上 )， 生 物 加 密 (人 的 首 像 和 指纹 用 于 加 密 个 人 数据 )， 





匿名 数据 


库 (anonymous databases )〔 人 允许 不 同 的 数据 库 联合 ,但 是 只 有 那些 需要 访问 数据 库 的 人 才 可 以 访问 











数据 库 ， 个 人 信息 被 加 密 存储 在 不 同 的 地 方 )。 





数据 挖 抉 可 能 对 人 们 的 隐私 和 数据 安全 构成 威胁 ， 然 而 ， 就 像 我 们 所 看 到 的 一 样 ， 为 防止 收集 


























的 数据 误 用 已 经 提出 了 很 多 解决 方案 。 而 且 ， 数 据 库 系统 中 的 数据 安全 增强 技术 也 可 以 用 在 数据 挖 










































































a mts 


低谷 ， 但 是 鉴于 对 这 种 技术 的 强大 的 需求 ， 数 据 挖 掘 肯定 会 成 功 的 。 随 着 公司 和 消费 者 的 不 断 的 共 
同 努力 ， 找 到 更 多 的 保护 数据 隐私 和 安全 的 解决 方案 ， 数 据 挖掘 一 定 能 给 我 们 带 来 更 多 的 利益 ， 可 


























以 节约 我 们 的 时 间 和 人 金钱， 并 发 现 新 的 知识 。 
10. 5 数据 挖掘 的 发 展 趋势 





























鉴于 数据 ， 数 据 挖掘 任务 和 数据 挖掘 方法 的 多 样 性 ， 给 数据 挖掘 提出 了 许多 挑战 性 的 课题 。 数 
据 挖掘 语言 的 设计 ,高 效 而 有 效 的 数据 挖掘 方法 和 系统 的 开发 , 交互 和 集成 的 数据 挖掘 环境 的 建立 ， 






























































以 及 应 用 数据 挖掘 技术 解决 大 型 应 用 问题 ， 都 是 目前 数据 挖掘 研究 人 员 ， 系 统 和 应 用 开发 人 员 所 面 





临 的 主要 问题 。 本 节 描 述 一 些 数据 挖掘 的 发 展 趋 势 ， 它 反映 了 面 对 这 些 挑战 的 应 对 策略 。 
应 用 的 扩展 : 早期 的 数据 挖掘 应 用 主要 集中 在 帮助 企业 提升 竞争 能 力 。 随 着 数据 挖掘 






























































的 日 益 普 














及 ， 数 据 挖 抉 也 日 益 扩展 其 应 用 范围 ， 如 生物 医学 ， 金 融 分 析 ， 和 电信 等 领域 。 此 外 ， 随 着 电子 商 


























务 和 电子 市 场 逐 渐 成 为 零售 业 的 主流 因素 ， 数 据 挖掘 也 在 不 断 扩 展 其 在 商业 4 





























据 挖 掘 系 统 在 处 理 特定 应 用 问题 时 有 其 局 限 性 ， 因 此 目前 的 一 种 趋势 是 开发 针对 特定 应 用 





掘 系统 。 








































































































可 伸缩 的 数据 挖掘 方法 : 与 传统 的 数据 分 析 方 法 相 比 , 数据 挖掘 必须 能 够 有 效 地 处 到 
而 且 ， 尽 可 能 是 交互 式 的 。 由 于 数据 量 是 在 不 断 地 激增 ， 因 此 针对 单独 的 和 集成 的 数据 挖掘 功能 的 























领域 的 应 用 面 。 


通用 数 
的 数据 挖 





EE 大量 数据 ， 











可 伸缩 算法 显 的 十 分 重要 。 一 个 重要 的 方向 是 所 谓 基 于 约束 的 挖掘 〈constraint-based mining)， 它 是 
致力 于 在 增加 用 户 交 互 的 同时 如 何 改 进 控 气 处 里 的 总 体 效 率 。 它 提供 了 额外 的 控制 方法 ， 允 许 用 户 









































说 明和 使 用 约束 ， 引 导数 据 挖掘 系统 对 感 兴趣 模式 的 搜索 。 








































































































数据 库 和 数据 仓库 系统 的 紧 耦 合 方式 。 事 务 管理 ， 碍 询 处 理 ， 联 机 分 析 处 理 ， 











成 在 一 个 统一 框架 中 。 这 将 保证 数据 的 可 获得 性 ， 数 据 挖掘 的 可 移植 性 ， 可 伸缩 性 ， 高 性 
































对 多 维 数据 分 析 和 扩展 的 集成 信息 处 理 环境 。 


















































数据 挖掘 与 数据 库 系 统 ， 数 据 仓库 系统 ， 和 Web 数据 库 系 统 的 集成 : 数据 库 系 统 ， 数 据 仓库 系 
统 ， 和 WWW 已 经 成 为 信息 处 理 系统 的 主流 。 保 证 数据 挖掘 作为 基本 的 数据 分 析 模 块 能 够 顺利 地 集 
成 到 此 类 信息 处 理 环境 中 ， 是 十 分 重要 的 。 如 在 4。4 所 述 ， 数 据 挖掘 系统 的 














里 想 体 系 结构 是 与 





和 联机 分 析 控 掘 应 集 





























能 ， 以 及 





数据 挖掘 语言 的 标准 化 ;标准 的 数据 挖掘 语言 或 其 它 方面 的 标准 化 工作 将 有 助 于 数据 挖掘 的 系 






























































其 它 工作 见 4。2。7 的 讨论 。 








统 化 开发 ， 改 进 多 个 数据 挖掘 系统 和 功能 间 的 互 操作 ， 促 进 数据 挖掘 系统 在 企业 和 社会 中 的 教育 和 
使 用 。 近 期 在 这 方面 的 工作 包括 Microsoftrs OLE DB for Data Mining (附录 A 提供 了 这 方面 





的 介绍 )。 








可 视 化 数据 挖掘 : 可视化 数据 挖掘 是 从 大 量 数据 中 发 现 知识 的 有 效 途 
化 数据 挖掘 技术 将 有 助 于 推进 数据 挖掘 作为 数据 分 析 的 基本 工具 。 















































。 系 统 研究 和 





复杂 数据 类 型 挖掘 的 新 方法 : 如 第 九 章 所 述 ， 复 杂 数 据 类 型 挖掘 是 数据 挖掘 中 一 项 习 
研究 读 题 。 虽 然 在 地 理 空 g 间 挖 据 ， 多 媒体 挖掘 ， 时 序 挖掘， 序列 挖掘 ， 以 及 文本 控 
进展 ， 当 它们 与 实际 应 用 的 需要 仍 存在 很 大 的 距离 。 对 此 需要 进一步 的 研究 ， 




























































































据 类 型 的 现存 数据 分 析 技 术 与 数据 挖掘 方法 集成 起 来 的 研究 。 
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重要 的 前 沿 
吕方 面 取得 一 些 


尤其 是 把 针对 上 述 数 











Web 挖掘 :Web 挖掘 的 有 关 问 题 在 9。6 节 讨 论 过 。 由 于 Web 上 存在 大 量 




















电信 县 9 并 且 











Web 在 当 








今 社 会 扮演 越 来 越 习 











将 成 为 数据 挖掘 中 一 个 最 为 重要 和 繁荣 的 子 领域 。 


数据 挖掘 中 的 隐私 保护 与 信息 安全 ， 随 着 数据 挖 气 工 
挖 气 要 面 对 的 一 个 重要 问题 是 隐私 保护 和 信息 安全 。 
访问 和 挖掘 过 程 中 确 








要 的 角色 ， 有 关 Web 内 容 挖掘，Weblog 挖 直 











虽 ， 和 因 








特 网 上 的 数据 挖掘 服务 ， 
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保 隐私 保护 与 信息 安全 。 

















10. 6 总 结 


。 针 对 特定 领域 的 应 用 人 们 开发 了 许多 专 


融 ， 和 零售 业 ， 








的 数据 挖掘 解决 方 


。 在 过 去 





重要 的 一 点 是 要 从 多 个 角度 考察 数据 挖 据 系 统 的 各 种 特征 。 
数据 挖掘 的 功能 和 方法 ， 数 据 挖 气 系 统 与 数 ] 
用 户 界面 。 
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es 信 。 这 些 实践 将 数据 分 析 技 术 与 特 


案 。 


10 年 中 ， 
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基础 。 


。 一 些 研 究 人 员 已 在 致力 于 建立 数据 挖掘 的 理论 基 而 


括 数 据 归 约 ， 





。 智 能 查询 应 答 采 用 数据 挖 


。 可 视 化 挖掘 集成 可 数据 挖掘 和 数据 可 视 化 技术 ， 
可 视 化 数据 挖掘 的 
据 挖掘 使 用 音频 信 

。 针 对 数据 分 书 
混合 效应 模型 ， 因 








形式 包括 数据 可 视 化 ， 数 据 
号 来 指明 数据 挖 气 结 果 的 数 





据 模式 逢 


























的 数据 控 
定 领 域外 


发 了 许多 数据 挖掘 系统 和 产品 


已 经 提出 了 几 种 完善 的 统计 方法 ， 如 
素 分 机， 判别 式 分 析 ， 时 序 分 析 ， 幸 存 分 析 ， 和 质量 控制 。 
分 析 方 法 超出 本 书 范畴 ， 感 兴趣 的 读者 可 参考 文献 注解 ， 
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工具 ， 这 包括 生物 医学 ，DNA 分 析 ， 金 
合 在 一 起 ， 提 供 了 满足 特定 任务 


信和 与 计算 机 网 络 的 日 益 普 及 ， 数 据 
步 开 发 有 关 方 法 ， 以 便 在 适当 的 信息 
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自己 需要 的 数据 挖掘 产品 ， 
类 型 ， 系 统 问 题 ， 数 据 源 ， 
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月 了 查询 处 理 系 统 的 能 力 和 可 
。 一 种 新 技术 如 数据 挖 握 好 














用 性 。 




















了 这 种 技术 在 成 为 主流 技术 之 前 必须 面 对 的 挑战 。 





。 数 据 挖掘 所 带 来 的 一 种 社会 影响 是 有 关 隐 私 和 信 ， 
隐私 保护 的 方法 ， 它 允许 用 户 说 明 使 用 个 人 数据 的 限制 条 伯 
私 的 考虑 ， 将 信息 匿名 化 。 





。 数 据 挖 
的 可 伸缩 性 ， 





据 发 
基于 约束 的 挖掘 ， 和 可 视 化 方法 ， 数 据 控 
























































] 于 从 大 量 数 据 中 发 现 隐 含 的 和 有 用 的 
挖掘 结果 的 可 视 化 ， 和 数据 挖掘 过 程 可 视 化 。 


引用 的 统计 文献 ， 可 作为 统计 分 析 工具 的 
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回归 ， 广 义 线 形 模型 ， 回 归 树 ， 方 差分 析 ， 








覆盖 所 有 的 统计 数据 

















1 这 方面 已 经 提出 了 一 些 有 意思 的 成 果 ， 
模式 发 现 ， 概 率 理 论 ， 数 据 压 缩 ， 微 观 经 济 ， 和 归纳 数据 库 。 


] 户 查询 的 意图 ， 提 供与 查询 相关 的 概 化 和 关联 信息 。 
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要 得 到 认可 ， 需 经 过 一 个 生命 周期 ， 这 中 间 通 常 包含 一 个 沟 坎 ， 它 表示 

















妃 安 全 的 问题 。Opt-out 策略 是 一 种 有 关 数 据 
F。 数 据 安 











全 增强 技术 可 以 出 于 安全 和 隐 
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掘 语言 的 标准 





人 化， 以 及 数据 隐私 保护 与 安全 。 





习题 





10.1 给 出 一 个 未 在 本 草 论 及 的 数据 挖 


方法 。 

















10.2 假设 要 在 市 场 上 购买 一 个 数据 挖掘 系统 。 





步 研 究 的 新 应 用 的 扩展 ， 和 处 理 复杂 数据 类 型 的 新 方法 , 算法 
与 数据 仓库 和 数据 库 系 统 的 集成 ， 数 据 挖 








图 应 用 的 例子 。 讨 论 在 此 应 用 中 如 何 使 用 各 种 不 同 的 数据 挖掘 












































诛 系 统 粳 





(a) 考虑 数据 挖掘 系统 与 数据 库 和 /或 数据 仓 | 
耦合 ， 紧 耦合 之 间 的 区 别 。 

(b) 行 可 伸缩 性 和 列 可 伸缩 性 之 间 的 区 别 是 什么 ? 

(c) 当选 择 一 个 数据 挖掘 系统 时 ， 在 以 上 列 上 


10.3 考察 一 个 现存 的 商品 化 数据 控 


可 处 理 的 
仓库 系统 


见 ， 并 概述 
10.4 提出 几 种 对 音频 数据 挖 所 





数据 挖掘 




















合 方式 ， 试 述 无 糊 合 ， 






































数据 类 型 ， 
的 耦合 度 ， 可 伸 
实现 方法 ? 














缩 性 ， 可 视 化 工具 ， 和 









































的 音频 -可 视 化 挖 气 有 效 。 





系统 体系 结构 ， 数 据 源 ， 数 据 挖 


时 的 实现 方法 。 可 否 将 音频 数 ] 











的 诸多 特征 ， 














， 哪 些 是 你 要 关心 的 ? 


图 系统 。 从 多 个 不 同 角 度 来 看 ， 分 析 这 一 系统 的 主要 特征 ,包括 
时 功能 ， 数 据 挖掘 方法 ， 与 数据 库 或 数据 
图 形 用 户 界 面 。 
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据 挖 掘 与 可 视 化 数据 挖掘 结合 起 来 ， 使 得 
生动 而 强大 ? 可 和 否 开发 一 些 视频 数据 挖掘 方法 ? 给 出 一 些 例子 和 解决 方案 ， 使 得 集成 








10.5 通 


用 计算 机 加 上 与 领域 独立 的 关系 数据 库 系统 在 过 去 的 几 十 丘 
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10.6 为 什 
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论 基 础 的 建立 对 数据 挖掘 是 十 分 重要 的 ? 列 HH 
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时 市 场 成 为 主流 。 你 的 看 法 如 何 ? 对 数据 


ah 


巨大 的 市 场 。 
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i。 评论 
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理论 是 如 何 满足 (或 不 满足 ) 数据 挖掘 的 理 





提出 的 数据 挖掘 的 主 
想 理论 忆 


开发 特定 领域 的 数据 挖 
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10.7 直接 查 
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应 与 智能 查 





询 响 应 间 的 区 别 是 什么 ?假设 一 用 户 要 





址 ， 和 等 级 。 举 例 来 说 明 用 
10.8 假设 当地 银行 有 一 个 数据 挖掘 系统 。 该 性 


装修 店 有 民 行 决定 与 你 联系 ， 提 供 有 关 家 居 改 善 方面 的 特别 贷款 信息 。 


(a) 
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(2 


的 例子 吗 ? 
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10.9 基于 
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直接 查询 响应 与 智能 查询 响应 处 理 此 查询 的 情况 。 
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给 出 另外 一 
可 否 举 上 


| Ll 
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现在 已 有 








一些 数 据 挖掘 对 社 
的 对 数据 挖 据 系 统 和 应 














如 何 与 你 的 隐私 权 相 冲 突 。 
个 使 你 感到 数据 挖 气 侵 犯 你 的 隐私 权 的 情况 。 











查询 某 渡 假 区 的 旅馆 的 价格 , + 
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注意 到 你 在 家 庭 

















会 有 帮助 的 例子 ? 你 能 想 
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j 的 知识 ,你 认为 数据 挖掘 会 成 为 一 个 
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10.10 基于 你 的 而 


文献 注解 








发 的 瓶颈 是 什么 ?你 认为 有 
提 
究 ， 提 出 一 个 本 章 没 有 讨论 到 的 数据 挖掘 诸 











前 数据 挖掘 的 方法 会 顾 得 巨大 系 




















H 一 些 建议 吗 ? 
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i 的 课 








有 很 多 讨论 数据 库 应 


据 分 析 ， 





[。。。] 很 好 的 总 结 了 这 方面 的 有 关 方 法 和 算法 。 对 数 ] 
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的 数据 挖掘 了 
析 方 面 的 工 
许多 数据 挖 
识 发 于 
] 户 习 


， 可 参见 [。。。]。 有 关 零 售 业 数 据 挖 气 和 客户 关系 管 





[ 作 见 [。。。 
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个 会 议 辅导 材料 中 《〈[。。。 


(perception-based ) 的 分 类 方法 ，PBC， 
关于 数据 分 析 的 统计 技术 已 有 好 几 本 了 
Analysis( 智 能 数据 分 析 ); [。。。] 编 著 的 第 四 版 [。。。]; [。。。] 编 著 ! 
编著 的 第 三 版 [。。。]; [。。。] 编 著 的 [。。。]; [。。。] 编 著 的 [。。。]; [。。。] 编 著 
有 关 数 据 挖掘 的 到 

















作 。[。。。] 讨 论 了 科学 知识 发 现 


岗 软 件 工 具 的 综述 。 有 关 专 用 数据 挖 抉 系统 和 产品 的 详细 信息 可 从 提供 
F 册 ， 以 及 数据 挖掘 和 数据 仓库 方面 的 杂志 和 期 刊 中 得 到 。 例 如 
的 URL 是 [。。。 
因此 车 那 一 个 数据 挖 ] 
有 关 可 视 化 数据 挖掘 ，[。。。] 的 书 是 关于 数据 与 信息 可 视 化 
发 的 VisDB 系统 用 了 
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P 人 机 协同 的 问题 。 
数据 挖 抉 系统 和 产品 的 介 2 
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显示 的 畅 和 


J 

































































数据 库 的 挖 气 ， 用 到 
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书籍 介绍 过 ， 包 括 


殷 方 法 。[。。。] 提 出 
分 类 。 


[。。。] 编 著 的 















































的 [。。。 
究 论 文 。Mannlia 在 [Man97]， 



































方面 的 问题 见 诸 许多 下 

















论 











茶 仙 




















基础 理 
控 











掘 


p 
(4 








E 论 全 
加 的 数据 压缩 问题 参见 最 小 描述 长 度 原理 ， 如 [。。。]。 数 据 挖掘 的 模式 
习 和 数据 挖掘 的 有 
序列 模式 挖 指 
叶 斯 网 络 和 层次 贝 叶 
种 优化 问题 。[。。。] 提 出 了 把 数据 挖掘 作为 归纳 数据 查询 的 观点 。 


寺 究 方面 的 综述 


4 


o 本 








关 数 据 挖 掘 的 数据 回归 分 析 在 [。。。] 的 报 











发 现 理论 


























究 中 可 


Hx 


od 





| 
上 
by， 











斯 模 














以 见 到 ， 因 为 模式 发 现 的 方法 包括 了 决策 树 归纳 ， 神 经 网 





类 ， 等 等 。 数 据 挖掘 的 概率 论 可 以 参看 统计 方面 的 文献 ， 如 第 7 章 介 引 





日 
La 





型 。[。。。] 提 出 了 一 种 数据 挖 气 的 微观 经 济 学 理论 ， 把 数 














知 角 











很 多 学 者 


啊 应 。 
由 [。。 


[。。。] 讨 论 


的 特 邀 报告 
有 过 几 篇 论文 讨论 , 包括 [。。。]( 提 昌 











完了 智能 





。] 编 著 的 。。。 
了 技术 采纳 4 
中 论 及 了 数 


























讨论 了 ， 








查询 应 答 方法 ， 包 括 [。。。。]。[。。。] 研 究 了 基于 知识 发 现 




















商务 和 客户 关系 管理 ， 对 数据 挖掘 的 未 来 提 














己 JJ 




















据 挖 掘 与 技术 采纳 生命 周期 的 问题 。 数 据 挖 据 有 关 隐 私 和 


HH 了 一 种 允许 个 人 信息 买卖 的 规范 的 全 











肖 书 。[。。。 
了 多 维 可 视 化 方法 。 


的 [。。。]; [。。。] 编 著 的 [。。。]; [。。。 


。。 中 给 





书 提 供 任 何 这 方 





] 总 结 了 可 视 化 
Keim 在 他 的 几 
了 一 种 基于 理解 








Intellligent Data 
] 
]s 


和 





出 了 数据 挖掘 
出 了 总 结 。 数 据 
在 很 多 的 机 器 学 
络 分 类 ， 关 联 控 
的 贝 
据 挖掘 看 成 为 一 























技术 的 智能 查询 


4 了 有 意思 的 预见 。 
命 周期 问题 , 包括 跨越 鸿沟 (crossing the chasm) 的 问题 Agrawal 在 KDD’99 








数据 安全 的 问题 


国信 息 市 场 的 概念 ), [。。。] 





(讨论 了 公平 信息 实践 和 opt-out 选择 问题 )，[。。。]。[。。。] 讨 论 了 保持 隐私 的 数据 挖掘 方法 。 


附录 A Microsoft's OLE DB for Data Mining 简介 














串口 愉 























本 附录 对 Microsofts OLE DB for Data Mining(OLE DB for DM) 规 范 ”1 做 一 个 非 正式 的 简单 介 


。OLE DB for DM 是 朝 着 将 数据 挖 扩 
B for DM 可 以 使 数据 挖 拨 (DM) 客户 应 用 《或 叫 数据 挖掘 消费 者 〈data mining consumer)) 使 用 
F 包 (或 称 为 数据 挖 据 提供 者 (data mining provider)) 提供 的 服务 。 

时 过 程 中 的 抽象 概念 。 作 为 OLE DB 的 扩 


广泛 的 数据 挖掘 软 伯 
OLE DB for DM 描述 了 数据 挖 提 




















时 语言 标准 化 到 进 的 重要 一 步 ， 























其 目标 是 成 为 工业 标准 。OLE 























展 , 它 引 入 了 一 个 新 的 











虚拟 对 象 ， 称 为 数据 挖掘 模型 (Data Mining Model, DMM)， 并 定义 了 对 DMM 进行 操作 的 语句 ， 这 





些 语句 在 形式 以 及 功能 
1 Ee 












































创建 数据 挖掘 模型 对 象 : 





] CREATE 语句 











以 及 数据 挖掘 算法 , 稍 后 
聚 类 《〈 称 为 分 段 ) 和 回归 (为 了 预报 )。 


























上 类 似 于 SQL 语言 ， 主 要 有 以 下 三 种 语句 : 
创建 DMM 对 象 , 该 语句 类 似 SQL 中 的 CREATE 
TABLE 语句 。CREATE 语句 定义 了 DMM 中 的 列 〈 例 如 ， 在 挖掘 过 程 中 需要 分 析 的 














E) 


届 怕 























DM 提供 方 使 用 该 算法 对 模型 进行 训练 数据 挖掘 算法 包括 决策 树 、 
CREATE 语句 并 没有 定义 DMM 的 内 
图 形 结构 )， 在 下 面 的 语句 执行 前 ，DMM 被 认为 是 “ 空 ” 的 。 
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( 即 要 学 习 的 




















向 DMM 中 装 入 训练 数据 并 对 之 进行 训练 : 用 INSERT 语句 装 入 训练 数据 ， 来 生成 模型 ， 
类 似 于 SQL 中 的 INSERT INTO 语句 。 INSERT 语句 使 得 DM 提供 方 用 CREATE 语句 中 指定 























的 算法 对 新 装 入 的 训练 数据 进行 处 理 








。 经 过 处 理 后 的 结果 模型 (或 抽象 ) 替代 原 有 的 训练 数 











据 存 入 DMM。 其 结果 称 为 DMM 内 容 。 
































使 用 数据 挖掘 模型 : 用 SELECT 语句 查询 DMM 的 内 容 ， 用 于 作出 预报 或 浏览 由 模型 得 出 
的 统计 结果 。 



































在 关系 数据 库 ! 





， 被 挖掘 的 数据 被 表示 为 

















组 表 。 属 于 某 个 单一 实体 的 数据 被 叫做 案例 











(case)， 相 关 的 一 系列 案例 被 叫做 案例 集 (case seb 。 像 Microsoft Data Access Components(MDAC) 
产品 中 的 Data Shaping Service 那样 ，OLE DB for DM 提供 了 骨 套 表 (或 表 值 列 )。 利 用 骨 套 表 ， 



























































给 定 的 实体 可 以 有 记录 集 ， 而 不 限于 单一 的 记录 。 例如 ， 对 于 顾客 实体 ， 可 以 有 Customer ID 
(顾客 标识 )、Gender (性 别 )、Age 年龄 )、Item Purchases (购买 商品 ) 等 属性 , 而 
一 个 骨 套 表 (Item Name (商品 名)，Item Quantity〔 商 品 数量 )，Item Type (商品 类 型 )) 来 











Item Purchase 











描述 ， 表 示 该 顾客 所 购买 的 一 系列 商品 ， 如 表 A.1 所 示 。 
个 谍 套 表 可 以 有 不 同 数量 的 行 。 案 例 的 主要 的 行 被 叫做 案例 行 (case row)， 抠 套 表 中 的 行 被 叫 
故 网 套 行 hested row)。 




















个 案例 ， 可 以 有 多 个 肉 套 表 ， 而 每 

















表 A。1 描述 “customer( 顾 客 )” 实 体 的 具有 








嵌 套 表 的 样本 案例 





P486 





CD 机 家 庭 娱 乐 
家 庭 娱乐 
汽车 报警 器 安全 


对 以 上 的 主要 操作 我 们 给 出 如 下 的 例子 。 


A.L 创建 DMIM 对 象 














性 ) 以 及 用 于 其 后 训练 的 DM 算法 。 





”本 





该 语句 包含 以 下 的 信 | 
例 行 。 Age 
表示 使 用 默认 的 方法 进行 离散 化 。 也 可 以 使 有 


附录 提供 











是 模型 所 要 预测 的 属性 , 它 





属 怕 
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Ee 
日 心 \ 




















的 








到 的 


已 信息 可 参见 该 文档 或 其 





三 


地 








新 版 本 . 








例 A.1 创建 一 个 用 于 分 类 的 DMM: 以 下 的 语句 对 


是 基于 OLE DB for Data Mining, Draft Specification, 9.0 版 , 微软 公司 , 2000 年 2 月 














] 于 年 龄 预测 的 DMM 对 象 指 定 了 列 〈 或 属 











息 : Customer ID 被 指定 为 关键 字 , 意味 着 它 可 以 唯一 的 标识 一 个 顾客 的 案 
是 一 个 连续 
月 DISCRETIZED(method,n),method 是 提供 方 提供 的 某 














型 的 属性 , 但 要 把 它 离散 化 。 DISCRETIZED() 























. 本 附录 未 提 











ee 是 将 刍 








E 瞪 范围 











值 划分 为 若干 桶 或 




















间隔 的 推荐 个 数 。Item Purchase 是 一 个 蔡 套 表 ， 


























含 列 Ilem Name〔 表 ItemPurchase 的 关键 字 )、Item Quantity 和 Item Type。 某 些 DM 提供 方 可 以 利 





Fs 


时 性 的 概率 分 布 知 




















过 冲击 








识 。Item Quantity 属性 具有 正 态 分 布 。 其 


也 的 分 布 模型 包括 UNIFORM、 





LOGNORMAL、BINOMIAL、MULTINOMIAL、POISSON 等 。 在 定义 中 , ltem Type RELATED TO 


ltem Name 的 意思 是 Item N 





ame 按照 Item Type 来 分 类 。 例 如 ,“TV” 可 分 类 








其 他 一 些 属性 类 型 没有 | 
PROBABILITY、VARIANCEE、 


















































数据 时 ， 提 供 方 应 使 用 决策 树 算法 构造 模型 。 
pair)， 用 以 说 明 算 法 所 使 用 的 参数 设置 。 
例 A.2 创建 一 个 用 于 关联 规则 的 DMM: 以 下 
象 : 
Minimum_size = 3 意味 着 仅 对 经 常 一 起 出 售 的 商品 ， 并 且 
则 进行 挖掘 。 








上 现在- 





上 例 中 ， 


为“ 家庭 娱 乐 ”。 还 有 


像 ORDERED、CYCLICA、SEQUENCE_TIME、 








STDEV 和 SUPPORT。USING 子 句 定义 了 通过 INSERT 语句 装 入 


























A.2 向 模型 中 装 入 训练 数据 并 对 模型 进行 训练 








下 面 的 语句 给 定 了 用 了 


启动 ， 对 输入 的 数据 进行 分 析 ， 





并 生成 模型 。 





该 子 句 也 可 附加 一 个 提 化 

















t 方 特殊 对 (provider-specific 











的 语句 创建 了 一 个 用 于 关联 规则 挖掘 的 DMM 对 














商品 的 个 数 至 少 为 3 个 的 关联 规 














构造 Age Prediction 模型 的 训练 数据 。DM 算法 (在 定义 该 模型 时 指定 ) 被 

















生成 DMM 的 方式 类 似 了 
在 INTO 子 句 中 











A.3 模型 的 使 用 





F 生 成 
HH 现 了 SKIP 关键 字 。 
































经 过 训练 的 模型 
昌 性 ， 要 考 


有 具有“ 真 值 表 ”的 形式 ， 它 对 DMM 每 列 








应 的 一 行 。 对 离散 属 














bs 到 属 











属性 ， 要 考虑 最 小 值 、 最 大 值 


过 对 这 张 表 的 浏览 ， 可 以 作出 














以 及 平均 值 。 每 一 种 


个 普通 的 关系 表 。 
注意 ，SHAPE 


性 的 所 有 离散 值 〈 或 桶 








因为 DMM 并 不 使 用 数据 源 中 的 第 一 列 ， 所 以 
命令 用 于 


F 创 建 嵌 套 表 Item Purchase。 























的 可 能 组 合 都 有 对 
间 值 )。 对 连续 型 
空缺 )” 标 签 。 通 


(属性 ) 的 所 有 值 
)。( 使 用 每 个 桶 的 ! 






















































































Fh 属性 类 型 都 包含 了 “missing (2? 





预测 或 查询 学 习 到 的 统计 值 。 








包括 预测 、 
下 面 的 OLE DB for DM 











该 语句 采用 了 PREDICTION JOIN 对 DMM 
未知》 进行 连接 。SELECT 语句 对 连接 的 结果 进行 操作 ， 返 
个 给 定 的 测试 案例 ，PREDICTION JOIN 可 能 发 现 一 
这 些 案例 就 “倒塌 ”聚合 为 一 个 聚集 案例 ， 








we 











情形 ， 
预测 列 的 最 佳 预 涡 
DMM Fr 




















不 同 的 头发 颜色 : 


查询 或 浏览 全 面 的 内 容 。 
语句 说 明了 SELECT 命令 


| 














本 小 节 给 日 





上 了 使 用 DMM 的 几 个 例子 ， 





























j 于 预测 的 情况 。 











的 所 有 可 能 的 案例 与 指定 的 案例 集 (年 龄 属性 的 
加 每 个 客户 的 预测 名 注意 ， 对 一 
组 案例 满足 ON 子 句 中 的 条 件 ， 如 果 发 生 这 利 
它 包含 了 对 Age 的 最 佳 预测 《或 为 模型 中 所 有 可 




















年 龄 。 
下 
































1 )。SELECT 语句 也 可 以 检索 测试 案例 的 已 知 Age 值 ， 用 了 
“ 真 值 表 ”含有 属性 值 
例如 ; 如果 在 Age Prediction 模型 中 包含 像 头 发 颜色 这 样 的 








的 各 种 可 

















能 的 组 合 ， 


检验 模型 的 准确 性 。 
的 值 和 统计 结果 。 
1 所 有 








可 以 从 中 查询 各 种 各 样 
属性 ， 则 可 以 用 下 面 的 语句 查找 至 



































SELECT DISTINCT Hair Color FROM [Age Prediction] 














类 似 的 ， 所 有 可 以 购买 的 商品 清 





、 











可 以 1 

















下 面 的 语句 获得 : 


SELECT DISTINCT [Item Purchases].[Item Name] 
可 以 用 点 操作 符 (“.”) 表示 骸 套 表 的 一 个 属 
t 了 大 量 的 函数 用 于 统计 性 的 描述 











注意 ， 在 幅 套 表 的 里 ， 





OLE DB for DM 提供 





FROM [Age Prediction] 
性 o 
术 预 测 结 果 。 例 如 ， 一 个 预测 值 的 可 能 性 可 

































































以 用 函数 PredictProbability0 来 刻画 ， 
及 相应 的 概率 : 











例 : 


党 
< 


如 同 下面 的 例子 ， 它 返 





加 一 个 表 ， 包 含 每 个 客户 的 预测 年 龄 以 


SELECT [Customer ID],Predict(Age),PredictProbability([Age]),…. 
以 类 似 的 用 函数 Cluster0 和 ClusterProbability0) 去 刻画 每 个 簇 (Cluster) 和 其 相应 的 概率 ， 如 下 





SELECT [Customer ID],[Gender],Cluster() as C,ClusterProbability() as CP,... 

















上 例 中 C 是 





RangeMid(),RangeMin(),RangeMax() 分 别 返 
最 大 值 。 





个 复 的 标识 符 ， 标 识 某 个 案例 最 可 能 
以 列 名 作为 参数 的 函数 还 有 PredictSupport( 它 
PredictVariance(),PredictStdev(),PredictProbabilityVariance() 和 
器 对 DISCRETIEZD 属性 的 被 预测 桶 的 中 间 值 ， 最 小 值 ， 




















辕 于 哪个 禾 ，CP 标识 相应 的 概率 。 其 他 的 
返回 出 现 该 列 值 的 案例 的 个 数 ， 


PredictProbabilityStdev() 。 函 数 











函数 PredictHistogram 返回 要 预测 或 聚 类 的 列 的 直方 图 ， 该 图 用 内 套 表 的 形式 显示 了 该 列 各 种 


可 能 的 值 以 及 对 应 的 统计 值 。 例 如 ， 预 测 
的 性 别 属性 各 值 的 支持 度 以 及 概率 。 



































该 信息 











其 他 的 返回 值 

PredictHistogram() 的 参数 ， 则 直方 图 中 

率 等 。 另 外，OLE DB for DM 提供 了 查看 每 一 

个 案例 的 嵌 套 表 都 有 大 量 的 行 时 非常 有 用 。 
DMM 表 除 了 包含 有 关 预 测 涉及 的 属性 值 

如 ， 决 策 树 )、 规 则 、 

述 ， 以 字符 串 的 形式 描述 了 DMM 的 内 容 。 



















































































已 


公式 、 或 分 布 。 这 依赖 于 使 
要 解释 这 样 





























一 个 像 性 别 这 样 的 离散 型 属性 ， 选 用 直方 图 显示 每 个 案例 
可 用 以 下 的 语句 可 以 实现 : 


包括 $Variance,$Stdev,$ProbabilityVariance 和 $ProbabilityStdev。 如 果 以 Cluster0 作 为 
显示 每 个 案 


列 的 所 有 可 能 的 簇 的 标识 符 和 对 应 的 支持 度 、 概 





个 
不 


的 所 有 可 能 组 合 外 ,DMM 的 内 容 也 可 包 提 








列 巾 套 表 的 前 或 后 NN 行 的 函数 ， 这 样 的 函数 在 每 


一 组 结 点 ( 比 
























































对 以 有 疝 图 (如 决策 树 ) 表示 的 内 容 还 提供 








二 


航 


的 DM 算法 如 何 。 可 以 从 DMM ! 

















抽取 XML 描 
的 字符 串 ， 客 户 应 用 程序 需要 专门 的 技术 。 














操作 。 通 过 挖掘 而 发 现 的 规则 以 PMML(Predictive 
Model Markup Language， 预 测 模型 标记 语言 ) 形 式 表 示 ， 可 以 通过 查询 观察 其 





内 容 。 


附录 B DBMiner 简介 


DBMiner 是 一 个 数据 挖 扩 
Fraser University,British Columbia,Canada, 由 DBMiner Technology es 做 了 进 
ee 的 知识 发 现 领域 多 年 研究 成 果 的 结 


的 介 


是 一 个 联机 分 析 挖 掘 系 统 ， 用 于 在 大 型 


























知识 。 其 独特 之 处 如 


E 于 紧密 


























J 关系 数据 库 和 数据 仓库 中 
集成 了 联机 分 析 (OLAP) 和 多 种 数据 挖 据 功 能， 包括 特征 、 











交互 的 挖掘 多 


时 系统 。 它 起 源 于 Intelligent Database Systems Research Laboratory, Simon 
步 的 开发 而 形成 的 产 
4 录 对 DBMiner 做 一 简短 





居 次 的 


关联 、 分 类 、 


预测 、 和 聚 类 [Han98,HCC98,HF96]。 这 种 集成 开创 了 大 有 前 途 的 数据 挖掘 方法 学 -- 联 机 分 析 挖 掘 
(OLAM): 系统 提供 了 对 数据 进行 多 角度 观察 ， 交 互 挖掘 的 环境 , 用户 可 以 动态 的 选择 数据 挖掘 和 
联机 分 析 功 能 ， 可 以 对 挖掘 的 结果 进行 OLAP 操作 (如 销 取 、 切 块 /切片 、 旋 转 )， 也 可 以 对 OLAP 


的 结果 进行 挖掘， 即 在 多 个 抽象 层 对 数据 的 不 同 的 部 分 进行 挖掘 。 
通过 实现 了 一 系列 先进 的 数据 挖掘 技术 ， 系 统 易 于 对 多 维 数据 库 进 行 基于 查询 的 交互 式 数据 挖 
高 效 的 频繁 模式 〈frequent-pattern ) 挖掘 算法 ， 




















据 。 这 些 技术 包括 : 



































基于 OLAP 的 多 维 统计 分 析 ， 











逐步 加 深 的 挖掘 精 有 
实现 了 与 关系 数据 库 和 数据 仓库 的 3 





掘 环境 。 


B.1 系统 结构 


DBMiner 的 系统 结构 遵循 了 图 





























进行 联机 分 析 挖 所。 











角 知 识 ， 可 视 化 的 数据 挖掘 


























类 、 预 测 、 聚 类 和 时 间 序 列 分 析 。 








引擎 是 交互 作用 的 ， 





更 重要 的 是 ， 系 统 集成 了 OLAM 和 OLAP 引擎 ， 它 们 能 通 ; 
的 联机 查询 (或 命令 ), 通过 MDDB_API 对 多 维 
































行 分 机。 元 数据 字 ? 


























B.2 输入 和 输出 


DBMiner 从 SQL Server OLAP 的 数据 立方 体 中 取 数 据 , 立方 体 











户 界 面 见 图 B.1 











图 B。1 DBMiner 的 图 形 用 户 界面 





来 自 数据 仓库 和 或 其 他 形式 的 数据 如 电子 表格 。 





根据 不 同 的 数据 挖掘 任务 和 不 同 的 用 户 需求 ， 系 统 可 
的 输出 利用 Microsoft 2000 以 交叉 表 ， 


Csummarization ) 和 特征 

















及 其 他 的 图 形 化 工 





具 表 示 。 














树 和 决策 表 表 示 。 艇 用 地 图 来 表示 (对 于 二 维 分 析 而 言 















































数据 库 中 























， 元 规则 导 引 的 挖掘, 数据 和 知识 的 可 视 化 。 DBMiner 


F 滑 集成 ， 提 供 了 一 个 对 用 户 友好 的 、 交 互 的 、 高 性 能 的 数据 挖 





2.24 建议 的 联机 分 析 挖 气 结 构 。 它 从 关系 数据 库 和 (或 ) 数据 仓 
库 中 抽取 数据 ， 通 过 集成 和 转换 装 入 多 维 数 据 库 〈 数 据 的 一 部 分 或 全 部 被 合 ; 
cube))， 然 后 ， 根 据 用 户 的 处 理 请 求 进 行 联机 分 析 和 联机 分 析 挖掘 。 

结构 的 核心 模块 是 OLAM 引擎 ， 它 以 类 似 于 OLAP 引擎 进行 联机 分 析 的 方式 在 多 维 


DBMiner 的 OLAM 引擎 能 完成 多 种 数据 挖掘 


到 数据 立方 体 (data 





任务 ， 包 括 概念 描述 、 相 关 、 分 






























































数据 库 进 行 分 析 挖掘。 组 
因为 OLAM 引擎 可 以 对 OLAP 的 结果 进行 挖掘 
存储 了 数据 库 模 式 、 数 据 仓库 模式 和 概念 层次 信息 
的 存 取 以 及 执行 维 相关 的 OLAP 操作 ， 如 钻 取 和 切片 。 多 维 
滤 数 据 仓 库 和 或) 





















































集成 多 种 类 似 资 源 ， 对 数据 库 和 数据 仓库 的 存 取 可 以 
前 Microsoft SQL Server 7.0 OLAP Manager 文 持 这 利 
DBMiner 的 图 形 





























用 0 识 。 











饼 图 ， 
视 化 的 决策 


























相关 用 相关 规则 表 ， 相关 计划 和 相关 











系统 提供 了 观察 概念 层次 和 数据 立方 体内 容 的 工 
表示 。 数 据 立 方 体 的 内 容 用 三 维 的 形式 表示 ， ee 
隔 中 所 选 的 测试 值 的 汇总 数据 。 二 维 表 可 被 看 作 二 维 的 boxplot, 每 个 boxplot A 







































































A 

















为 中 OLAP 4 
帅 ，OLAP 0 
有 过 全 归 丰 计 
数据 库 的 构造 可 以 通 过 
数据 库 API 来 实现 〈 目 





























] ea 


API 接受 用 户 
1 OLAM 


如 结果 进 





的 数据 来 自 一 个 或 多 个 关系 表 ， 
数据 汇总 





曲线 以 


] 的 轮廓 。 
构 的 树 来 














个 三 维 间 




















隔 的 数据 


离 差 (dispersion) 视图 (包含 中 值 ， 第 一 个 四 分 点 (first quartile), 第 三 个 四 分 点 ， 须 状 孤立 点 (whiskers 
outliers)) 


系统 的 一 





























在 对 一 个 多 维和 层次 的 组 合 进行 相关 规则 的 挖 


得 出 相关 规则 。 











B.3 系统 支持 的 数据 挖掘 任务 


OLAP 分 析 器 。 这 个 功能 是 通过 钻 取 ， 切 块 ， 切 片 和 其 他 的 OLAP 操作 ， 从 不 同 的 角度 ， 
容 。 其 输出 可 以 用 多 种 多 样 的 可 视 化 或 图 形 的 形式 表 
示 。 此 外 ， 借 助 数据 离 差 (dispersion) 分 析 得 到 最 大 值 ， 最 小 值 ， 标 准 差 以 及 其 他 分 布 情况 
可 以 作为 OLAP 数据 的 注解 。OLAP 可 以 对 综合 数据 感 兴趣 的 部 分 进行 钻 取 、 切 块 以 便 做 
进一步 的 分 析 。 图 B.2 以 三 维 的 形式 表示 了 一 组 汇总 数据 。 
系列 关联 规则 。 这 样 获得 的 规则 可 用 于 市 场 分 析 ， 关 
联 分 析 等 。 用 户 可 以 指定 元 模式 (metapatterns) 以 限制 对 规则 的 搜索 。 例 如 指定 元 模式 : 




















多 个 抽象 层次 展现 数据 立方 体 中 的 内 容 















































个 重要 特征 是 具有 对 输出 的 知识 进行 诸如 钻 取 , 切 块 以 及 转换 等 操作 的 灵活 性 。 例如， 
掘 后 ， 可 以 对 任 一 维 进行 钻 取 ， 以 便 在 新 的 数据 集中 












































关联 。 该 功能 从 多 维 数据 库 中 挖掘 一 























major(S:student,X) 人 P(S,Y) => grade (S,YZ) ,其 9 












































PF，major 和 grade 是 关系 student 的 属 








性 上 的 谓词 ，S 是 一 个 变量 ， 表 示 学 生 ，P 是 一 个 谓词 可 实例 化 为 student 上 的 一 个 属性 ， 
X,YZ 取 人 允许 的 值 。 也 可 以 沿 着 任 一 维 在 多 个 抽象 层次 上 进行 规则 的 挖 据 。 图 B.3 用 关联 
球 图 表示 关联 规则 ， 球 表示 项 目 (item)， 篆 头 表示 规 上 组 涵 。 
分 类 。 该 功能 对 一 组 训练 数据 ( 即 一 组 已 经 确定 分 类 的 对 象 ) 进行 分 析 ， 根据 数据 的 特性 ， 
测试 数据 对 模型 进行 调整 。 用 决策 树 或 决策 表 来 表示 
以 便 更 好 的 理解 数据 库 中 的 数据 。 图 B.4 用 决策 树 的 

















对 每 一 个 分 类 构造 一 个 模型 ， 再 根据 
模型 ， 并 利用 模型 对 其 他 数据 分 类 ， 
形式 表示 了 一 个 分 类 结果 。 

















聚 类 。 该 功能 将 一 组 选 定 的 数据 对 象 ， 





司马 中 的 数据 相似 度 小 高 维 聚 类 也 
果 ， 在 图 中 ， 二 维 聚 类 的 每 一 个 聚 类 
预测 。 该 功能 对 一 组 选 定 对 象 的 丢失 
一 组 与 感 兴 趣 的 属性 相关 的 属性 (f 
然后 作出 值 分 布 的 预测 。 例 如 ， 一 个 
资 分 布 而 作出 预测 。 





















































时 间 序 列 分 析 。 这 个 模块 包括 若干 个 分 析 功 能 




















趋势 和 背离 分 析 。 




































































分 成 若干 的 簇 ， 使 之 簇 内 的 数据 相似 度 高 ， 而 不 
可 以 在 多 维 数据 库 中 完成 。 图 B.5 是 一 个 数据 聚 类 结 
用 不 同 的 颜色 和 形状 表示 。 








或 未 知 数据 的 值 或 值 的 分 布 进行 预测 。 这 涉及 到 选择 











音 助 于 茶 些 统计 分 析 )， 一 组 与 选 定 对 象 类 似 的 数据 ， 


雇员 的 可 能 的 工资 可 以 根据 公司 中 与 他 相似 雇员 的 工 


B.2 以 三 维 立方 体形 式 表 示 的 汇总 数据 











B.3 用 一 组 球 和 箭头 表示 的 关联 规则 











DBMiner 2.0 版 包括 OLAP 分 析 器 ， 分 类 ， 





B.4 用 决策 树 的 形式 表示 的 分 类 

















B.5 用 一 组 不 同 的 形状 标记 表示 案 类 的 结果 


版 本 中 实现 。 


B.4 对 任务 和 方法 选择 的 支持 


DBMiner 支持 任务 和 方法 选择 ， 通 过 一 个 基于 窗口 的 图 形 用 户 界 面 ， 


需 的 任务 





与 挖 据 结果 进行 交互 在 其 他 的 维 及 

















据 查 询 供用 户 检查 ， 该 查询 是 用 一 个 像 SQL 语言 的 DMQL 语言 








行 之 前 ， 用 户 还 可 以 修改 查询 语句 。 


， 像 相似 性 分 析 ， 周 期 分 析 ， 序 列 模式 分 析 ， 


相关 和 珍 类 模块 ， 预 测 和 时 间 序 列 分 析 将 在 以 后 的 














层次 上 进行 挖 据 。 根 据 








用 户 使 用 挖掘 癌 导 选择 所 




















用 户 的 输入 ， 系 统 产 生 一 个 控 


书写 的 ， 如 果 需 要 的 话 ， 在 提交 执 


B.S5 对 KDD 处 理 过 程 的 支持 

















1 于 DBMiner 是 与 数据 仓库 一 起 工作 的 , 若 有 必要 的 话 ， 某 些 知 识 发 现 的 先期 处 理工 作 可 以 | 




































































底层 的 数据 仓库 系统 完成 ， 这 些 工作 包括 数据 清洗 ， 数 据 集成 ， 数 据 综 合 。 数 据 的 选择 由 DBMiner 





作为 挖 气 查 询 的 组 成 部 分 来 完成 。 


在 DBMiner 中 
































， 对 挖掘 出 的 知识 进行 后 期 处 理 的 大 部 分 工作 被 集成 到 数据 挖 据 过 程 ， 这 是 因为 



































数据 挖掘 查询 不 但 


旨 定 了 与 任务 相关 的 数据 和 挖掘 任务 ,而且 也 指定 了 兴趣 测量 值 (例如 像 文 持 度 ， 





























信和 度 ， 噪 声 等 挖掘 闪 值 ) 和 期 望 的 规则 模式 。 数 据 挖 据 和 模式 评价 的 集成 减少 了 搜索 空间 ， 使 用 户 























将 精力 集中 到 挖掘 过 程 。 








B.6 主要 应 用 




















DBMiner 作为 











个 通用 的 联机 分 析 挖掘 系统 ， 可 用 于 在 关系 数据 库 和 数据 仓库 中 的 联机 分 析 和 





























数据 挖掘 。 该 系统 已 经 应 用 于 从 中 等 规模 到 大 规模 的 关系 数据 库 ， 具 有 快速 的 响应 时 间 。 
作为 DBMiner 的 扩展 ， 已 经 研制 了 若干 专业 的 数据 控 据 系统 原型 ， 如 
GeoMinerMultiMediaMiner，WeblogMiner。 


B.7 现状 


虽然 DBMiner 
































已 经 从 一 个 研究 系统 原型 转化 为 一 个 产品 , 但 是 它 在 新 技术 方面 的 创新 与 进步 仍 








与 大 学 研究 实验 室 紧 密 相连 。 











DBMiner 需要 日 
接连 接 到 Microsoft 
数据 库 系 统 。 











的 最 小 硬件 配置 是 奔腾 550，64MB RAM ， 运 行 Windows/NT。DBMiner 可 以 直 
SQL Server 7.0 或 者 通过 Microsoft SQL Sever OLAP Manager 实现 访问 多 种 关系 























DBMiner 2.0 可 以 从 http://db.cs.sfu.ca/DBMiner 或 http:/www.dbminer.com 免费 下 载 ， 有 90 天 

















的 试用 期 。 有 关 单 用 户 、 用 户 组 、 教 育 用 户 的 许可 证 可 以 从 http:/www.dbminer.com 获 得 。 











